論文の概要: Mitigating Shortcut Reasoning in Language Models: A Gradient-Aware Training Approach
- arxiv url: http://arxiv.org/abs/2603.20899v1
- Date: Sat, 21 Mar 2026 18:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.141539
- Title: Mitigating Shortcut Reasoning in Language Models: A Gradient-Aware Training Approach
- Title(参考訳): 言語モデルにおけるショートカット推論の緩和:グラディエント・アウェア・トレーニングアプローチ
- Authors: Hongyu Cao, Kunpeng Liu, Dongjie Wang, Yanjie Fu,
- Abstract要約: Shortcut-Aware Reasoning Training (SART)は、ショートカットプロモーションサンプルを検出し緩和する勾配対応フレームワークである。
本手法は, 評価目標と解答点濃度を併用して, 勾配補正によるショートカット信号の同定を行う。
- 参考スコア(独自算出の注目度): 31.233459232809608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit strong reasoning capabilities, yet often rely on shortcuts such as surface pattern matching and answer memorization rather than genuine logical inference. We propose Shortcut-Aware Reasoning Training (SART), a gradient-aware framework that detects and mitigates shortcut-promoting samples via ShortcutScore and gradient surgery. Our method identifies shortcut signals through gradient misalignment with validation objectives and answer-token concentration, and modifies training dynamics accordingly. Experiments on controlled reasoning benchmarks show that SART achieves +16.5% accuracy and +40.2% robustness over the strongest baseline, significantly improving generalization under distribution shifts. Code is available at: https://github.com/fuyanjie/short-cut-aware-data-centric-reasoning.
- Abstract(参考訳): 大規模言語モデルは強力な推論能力を示すが、真の論理的推論ではなく、表面パターンマッチングや応答記憶のようなショートカットに依存していることが多い。
我々は,ショートカット・アウェア・推論トレーニング(SART)を提案する。これは,ショートカット・プロモーティング・サンプルをショートカットスコアと勾配手術で検出し,緩和するグラデーション・アウェア・リアソニング・トレーニングである。
提案手法は,評価目標と解答トーケン濃度とを併用した勾配補正によるショートカット信号の同定と,トレーニングのダイナミクスの修正を行う。
制御された推論ベンチマークの実験では、SARTは最強のベースラインに対して+16.5%の精度と+40.2%の堅牢性を達成し、分散シフトの下での一般化を著しく改善した。
コードは以下の通りである。 https://github.com/fuyanjie/short-cut-aware-aware-data-centric-reasoning。
関連論文リスト
- Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space [7.8904984750896885]
ディープニューラルネットワークはショートカットを学習しやすく、刺激的で容易に学習できる相関関係を持つ。
ショートカット信号に機能的に不変な分類器を簡易かつ効果的に描画する手法を提案する。
我々はこれを対象のヤコビ正規化として分析し、分類器は急激な特徴を無視し、より複雑なコアセマンティック信号に依存するように強制する。
論文 参考訳(メタデータ) (2025-11-24T07:09:08Z) - Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI) [7.587193411022608]
ショートカット機能は、分散シフト時の堅牢性を損なうとともに、信頼性を低下させる。
連続学習(CL)では、ショートカットによる搾取の結果が持続し、強化される。
CLでは、ショートカットによって引き起こされる剛性は、新規なものの獲得を阻害する。
論文 参考訳(メタデータ) (2025-10-01T03:52:40Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Don't blame Dataset Shift! Shortcut Learning due to Gradients and Cross
Entropy [22.69591517487717]
マージンを最大化するためのデフォルトERMの好みは、安定機能よりもショートカットに依存するモデルにつながることを示す。
我々は、マージン制御(MARG-CTRL)と呼ばれる一様マージン解を促進する損失関数を開発する。
論文 参考訳(メタデータ) (2023-08-24T04:39:25Z) - Chroma-VAE: Mitigating Shortcut Learning with Generative Classifiers [44.97660597940641]
生成モデルだけではショートカット学習を防ぐには不十分であることを示す。
特にChroma-VAE(英語版)を提案する。これは、VAEが最初、小さな潜伏部分空間でショートカットを分離するために訓練される2段階のアプローチである。
ベンチマークや実世界のショートカット学習におけるクロマVAEの有効性の実証に加えて, 生成型分類器の潜時空間を操作して, 特定の相関関係を分離・解釈する可能性を強調した。
論文 参考訳(メタデータ) (2022-11-28T11:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。