Fugu-MT 論文翻訳(概要): TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge

論文の概要: TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge

arxiv url: http://arxiv.org/abs/2503.04381v1
Date: Thu, 06 Mar 2025 12:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.826851
Title: TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge
Title（参考訳）: TRACT:LSM-as-a-Judgeのためのチェーン・オブ・ソート・リソン(動画)
Authors: Cheng-Han Chiang, Hung-yi Lee, Michal Lukasik,
Abstract要約: TRACT(Two-stage Regression-Aware fine-tuning with CoT)は、CoT推論と回帰学習を組み合わせた手法である。 4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。
参考スコア（独自算出の注目度）: 59.57934574562651
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The LLM-as-a-judge paradigm uses large language models (LLMs) for automated text evaluation, where a numerical assessment is assigned by an LLM to the input text following scoring rubrics. Existing methods for LLM-as-a-judge use cross-entropy (CE) loss for fine-tuning, which neglects the numeric nature of score prediction. Recent work addresses numerical prediction limitations of LLM fine-tuning through regression-aware fine-tuning, which, however, does not consider chain-of-thought (CoT) reasoning for score prediction. In this paper, we introduce TRACT (Two-stage Regression-Aware fine-tuning with CoT), a method combining CoT reasoning with regression-aware training. TRACT consists of two stages: first, seed LLM is fine-tuned to generate CoTs, which serve as supervision for the second stage fine-tuning. The training objective of TRACT combines the CE loss for learning the CoT reasoning capabilities, and the regression-aware loss for the score prediction. Experiments across four LLM-as-a-judge datasets and two LLMs show that TRACT significantly outperforms existing methods. Extensive ablation studies validate the importance of each component in TRACT.
Abstract（参考訳）: LLM-as-a-judge(英語版)パラダイムは、LLMによって入力テキストに評価が割り当てられる自動テキスト評価に、大きな言語モデル(LLM)を用いる。 LLM-as-a-judgeの既存の方法は、スコア予測の数値的性質を無視したクロスエントロピー(CE)ロスを微調整に使用している。最近の研究は、回帰対応微調整によるLLM微調整の数値予測の限界に対処するが、スコア予測のためのチェーン・オブ・ソート(CoT)推論は考慮していない。本稿では,CoT推論と回帰学習を組み合わせたTRACT(Two-stage Regression-Aware fine-tuning with CoT)を提案する。 TRACTは2つの段階から構成される: 第一に、シードLLMはCoTを生成するために微調整され、第二段階の微調整の監督として機能する。 TRACTのトレーニング目的は、CoT推論能力を学ぶためのCE損失と、スコア予測のための回帰認識損失とを組み合わせたものである。 4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。広範囲にわたるアブレーション研究は、TRACTにおける各成分の重要性を検証している。

関連論文リスト

Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか? 我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文参考訳（メタデータ） (2025-10-16T16:02:27Z)
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文参考訳（メタデータ） (2025-08-21T00:20:47Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [47.058298511243386]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。 BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-05-20T14:16:49Z)
ULFine: Unbiased Lightweight Fine-tuning for Foundation-Model-Assisted Long-Tailed Semi-Supervised Learning [27.467732819969935]
本稿では,Long-Tailed Semi-Supervised Learning (LTSSL) における大規模視覚基盤モデルの効果について検討する。我々はリニアプローブ(LP)、軽量ファインチューニング(LFT)、フルファインチューニング(FFT)の3つの戦略を採用している。 i) LTSSLアルゴリズムと比較して,FFTはモデル性能が低下するのに対し,LPとLFTはモデル性能を向上するが,テールクラスには無視できる利点がある。我々は無バイアス軽量ファインチューニング戦略である textbfULFine を提案する。
論文参考訳（メタデータ） (2025-05-08T08:54:57Z)
Decoding Recommendation Behaviors of In-Context Learning LLMs Through Gradient Descent [15.425423867768163]
本稿では,理論モデル LLM-ICL Recommendation Equivalent Gradient Descent Model (LRGD) を提案する。 LLMにおけるICL推論プロセスは、その二重モデルのトレーニング手順と一致し、二重モデルの試験出力に相当するトークン予測を生成する。さらに実演効率を向上し,性能崩壊を防止し,長期適応性を確保するため,実演における2段階最適化プロセスを提案する。
論文参考訳（メタデータ） (2025-04-06T06:36:45Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [19.461541208547136]
本稿では,文脈内サンプル数の増加が評価結果の一貫性と品質に及ぼす影響について検討する。 GPT-4oのような先進LLMは、ゼロショットや少数ショットのレギュレーションよりも多ショットのレギュレーションにおいて優れた性能を示すことを示す実験結果が得られた。
論文参考訳（メタデータ） (2024-06-17T15:11:58Z)
CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文参考訳（メタデータ） (2024-05-03T18:51:19Z)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文参考訳（メタデータ） (2024-01-06T16:29:13Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
On Language Model Integration for RNN Transducer based Speech Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。 ILM補正による性能改善の2つの主な理由を復号化解釈する。また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-13T16:30:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。