Fugu-MT 論文翻訳(概要): CARE-RFT: Confidence-Anchored Reinforcement Finetuning for Reliable Reasoning in Large Language Models

論文の概要: CARE-RFT: Confidence-Anchored Reinforcement Finetuning for Reliable Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2602.00085v1
Date: Thu, 22 Jan 2026 23:14:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.354516
Title: CARE-RFT: Confidence-Anchored Reinforcement Finetuning for Reliable Reasoning in Large Language Models
Title（参考訳）: CARE-RFT:大規模言語モデルにおける信頼度向上のための信頼度強化ファインタニング
Authors: Shuozhe Li, Jincheng Cao, Bodun Hu, Aryan Mokhtari, Leqi Liu, Amy Zhang,
Abstract要約: 本稿では,標準的な逆KL正規化をスキュー逆KL分散に置き換える新しい手法であるCARE-RFT(Confidence-Anchored Regularized Reinforcement Finetuning)を紹介する。私たちの研究は、信頼に足る推論モデルと有能な推論モデルの両方を構築する上で、注意深い、信頼に足る正規化が鍵であることを証明しています。
参考スコア（独自算出の注目度）: 27.69700706743494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement finetuning (RFT) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models. However, we identify a critical trade-off: while unconstrained RFT achieves strong reasoning performance, it severely compromises model trustworthiness by amplifying hallucination and worsening calibration; conversely, RKL-constrained RFT preserves trustworthiness but limits reasoning gains due to its unbounded penalty on exploratory deviations. To resolve this tension, we introduce CARE-RFT (Confidence-Anchored Regularized Reinforcement Finetuning), a novel method that replaces standard reverse KL regularization with a skew reverse KL divergence. CARE-RFT provides a confidence-sensitive penalty: it is bounded for confident, consistently rewarded explorations to enable reasoning, while unbounded elsewhere to preserve calibration. Extensive experiments across multiple model scales and RFT algorithms show that CARE-RFT achieves a superior balance, matching the reasoning performance of unconstrained RFT while recovering the trustworthiness and calibration of the base model. Our work establishes that careful, confidence-aware regularization is key to building both capable and trustworthy reasoning models.
Abstract（参考訳）: 強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデルにおける推論能力を解放するための強力なパラダイムとして登場した。しかし, 制約のないRFTが強い推論性能を達成する一方で, 幻覚の増幅と校正の悪化によりモデル信頼性を著しく損なうこと, 逆にRKL制約のRFTは信頼性を保ちつつも, 探索的偏差に対する非拘束的な罰による推論の利得を制限すること, といった重要なトレードオフを見出した。この緊張を解消するために,標準的な逆KL正規化をスキュー逆KL分散に置き換える新しい手法であるCARE-RFT(Confidence-Anchored Regularized Reinforcement Finetuning)を導入する。 CARE-RFTは信頼性に敏感な罰を与え、信頼性があり、常に報酬が与えられ、推論を可能にし、他の場所では校正を維持するために無拘束である。複数のモデルスケールおよびRFTアルゴリズムにわたる広範囲な実験により、CARE-RFTは、ベースモデルの信頼性と校正性を回復しながら、制約のないRFTの推論性能と一致する、優れたバランスを達成できることが示されている。私たちの研究は、信頼に足る推論モデルと有能な推論モデルの両方を構築する上で、注意深い、信頼に足る正規化が鍵であることを証明しています。

関連論文リスト

Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。 LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文参考訳（メタデータ） (2026-02-02T14:18:48Z)
Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。 5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-19T14:37:07Z)
Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。 Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文参考訳（メタデータ） (2025-09-28T08:58:12Z)
ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。 LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文参考訳（メタデータ） (2025-08-26T09:25:32Z)
Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文参考訳（メタデータ） (2025-07-07T18:17:06Z)
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。 ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文参考訳（メタデータ） (2025-05-08T01:40:40Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。