論文の概要: CAREF: Calibration-Aware Regularization for Explanation Faithfulness Without Rationale Supervision
- arxiv url: http://arxiv.org/abs/2605.27835v2
- Date: Mon, 01 Jun 2026 02:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.628156
- Title: CAREF: Calibration-Aware Regularization for Explanation Faithfulness Without Rationale Supervision
- Title(参考訳): CAREF:Rationale Supervisionを使わずに説明表現の規則化
- Authors: Naphat Nithisopa, Teerapong Panboonyuen,
- Abstract要約: 我々はパラメータ効率の良い微調整フレームワークであるCAREFを紹介する。
CAREFはトークンレベルの空間制御とエントロピーベースのキャリブレーションを結合する。
4つのNLEベンチマーク(COS-E, ECQA, ComVE, e-SNLI)の評価
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce CAREF, a parameter-efficient fine-tuning framework that jointly optimizes predictive accuracy and explanation faithfulness via calibration-aware regularization. At its core, CAREF couples entropy-based calibration with token-level sparsity control through a single unified loss, the Calibration-Aware Regularization for Explanation Faithfulness (LSCED), without requiring rationale supervision. Evaluated on four NLE benchmarks (COS-E, ECQA, ComVE, e-SNLI) with Flan-T5, our lightweight CAREF-AQ variant attains the best average accuracy (89.04) and explanation alignment (81.00 nBERT) using only 6.43% of trainable parameters, outperforming LoRA and AdaLoRA. To our knowledge, CAREF is the first method to unify entropy and sparsity regularization in a single training objective for interpretable LLM fine-tuning.
- Abstract(参考訳): CAREFはパラメータ効率の良い微調整フレームワークで、キャリブレーション対応の正規化によって予測精度と説明忠実度を共同で最適化する。
CAREFの中核は、エントロピーベースのキャリブレーションとトークンレベルのスペーサリティ制御を1つの統一損失(キャリブレーション・アウェア・レギュラライゼーション・フォー・エクスプレーテーション・フェイントフルネス(LSCED))を通じて結合し、合理的な監督を必要としない。
Flan-T5による4つのNLEベンチマーク(COS-E, ECQA, ComVE, e-SNLI)を評価したところ、私たちの軽量なCAREF-AQは、トレーニング可能なパラメータの6.43%しか使用せず、LoRAとAdaLoRAを上回り、最高の平均精度(89.04)と説明アライメント(81.00 nBERT)を達成した。
我々の知る限り、CAREFはLLM微調整のための単一の訓練目標においてエントロピーと空間正規化を統一する最初の方法である。
関連論文リスト
- Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Sharpness Aware Surrogate Training for Spiking Neural Networks [0.0]
サロゲート勾配はスパイキングニューラルネットワーク(SNN)を訓練するための標準ツールである
しかし、従来のハードフォワードまたはサロゲート後方トレーニングは、偏りのある推定器を備えた非滑らかなフォワードモデルである。
後方プロパゲーションにより訓練した前方SNNに対して,シャープネス・アウェア・サロゲート・トレーニング(SAST)を適用し,シャープネス・アウェア・サロゲート・トレーニング(SAM)を適用した。
論文 参考訳(メタデータ) (2026-03-14T01:26:26Z) - Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards [71.19033708090389]
Reinforcement Learning from Verifiable Rewards (RLVR) は、大きな言語モデル(LLM)推論を著しく強化するが、校正劣化に苦しむ。
推論と校正の目的を体系的に分離するフレームワークであるDCPOを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:47:59Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection [0.0]
大規模言語モデル(LLM)は、ますます重要な意思決定システムにデプロイされている。
出力アンカートークン確率に基づく正規化信頼スコアを導入する。
これにより、最小限のオーバーヘッドでエラーや幻覚を直接検出できる。
論文 参考訳(メタデータ) (2026-02-18T07:05:12Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute [10.548368675645403]
CoRefineは、トークンのごく一部を使って競争精度を達成する自信誘導型自己精製法である。
コントローラはフルトレースの信頼性を消費し、停止するか、再検査するか、あるいは別のアプローチを試すかを決定する。
これをCoRefine-Treeに拡張します。これは、探索とエクスプロイトを適応的にバランスさせる、ハイブリッドなシーケンシャル並列型です。
論文 参考訳(メタデータ) (2026-02-09T17:44:41Z) - Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering [3.7758197704962835]
重み付きデカイプローブを用いて、モデル内部のアクティベーションから正当性信号を捕捉する正規化時間ステアリング法であるCORALを導入する。
コラルは、常に精度を10%改善し、期待キャリブレーション誤差(ECE)を平均50%改善する。
本結果は,個々のニューロンが不十分な場合,正規化プローブを用いてモデル内部の分散情報を抽出できるという仮説を支持する。
論文 参考訳(メタデータ) (2026-02-05T18:55:56Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning [20.442971494407896]
大規模言語モデル (LLM) は推論タスクにおいて顕著な進歩を遂げているが、スーパービジョンファインチューニング (SFT) と強化学習 (RL) の最適統合は依然として根本的な課題である。
本稿では,エントロピーを考慮した重み付け機構により,両方のファインチューニングパラダイムを統一する単一ステージ手法であるSupervised Reinforcement Fine-Tuning (SRFT)を提案する。
大規模な実験の結果、SRFTは平均精度59.1%に達し、5つの数学的推論ベンチマークでは0-RL法を9.0%上回り、3つのアウト・オブ・ディストリビューションベンチマークでは10.9%を上回った。
論文 参考訳(メタデータ) (2025-06-24T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。