論文の概要: Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.14810v1
- Date: Tue, 20 May 2025 18:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.70069
- Title: Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
- Title(参考訳): 推論と損失制御のスケーリング:大規模推論モデルにおける命令追従の評価
- Authors: Tingchen Fu, Jiawei Gu, Yafu Li, Xiaoye Qu, Yu Cheng,
- Abstract要約: 数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
- 参考スコア(独自算出の注目度): 27.142703756752997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following is essential for aligning large language models (LLMs) with user intent. While recent reasoning-oriented models exhibit impressive performance on complex mathematical problems, their ability to adhere to natural language instructions remains underexplored. In this work, we introduce MathIF, a dedicated benchmark for evaluating instruction-following in mathematical reasoning tasks. Our empirical analysis reveals a consistent tension between scaling up reasoning capacity and maintaining controllability, as models that reason more effectively often struggle to comply with user directives. We find that models tuned on distilled long chains-of-thought or trained with reasoning-oriented reinforcement learning often degrade in instruction adherence, especially when generation length increases. Furthermore, we show that even simple interventions can partially recover obedience, though at the cost of reasoning performance. These findings highlight a fundamental tension in current LLM training paradigms and motivate the need for more instruction-aware reasoning models. We release the code and data at https://github.com/TingchenFu/MathIF.
- Abstract(参考訳): インストラクションフォローは、大きな言語モデル(LLM)とユーザ意図の整合に不可欠である。
最近の推論指向モデルは複雑な数学的問題に対して優れた性能を示すが、自然言語の命令に従属する能力は未解明のままである。
本研究では,数学的推論タスクにおける指示追従評価のための専用のベンチマークであるMathIFを紹介する。
私たちの経験的分析は、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係を明らかにします。
理論指向の強化学習で訓練された蒸留長鎖に調整されたモデルが、特に生成長が増加すると、命令順守時にしばしば劣化することがわかった。
さらに, 簡単な介入であっても, 推論性能を犠牲にして, 服従を部分的に回復できることが示唆された。
これらの知見は、現在のLLMトレーニングパラダイムにおける根本的な緊張を浮き彫りにして、より命令対応の推論モデルの必要性を動機付けている。
コードとデータはhttps://github.com/TingchenFu/MathIF.comで公開しています。
関連論文リスト
- When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [16.659986373052217]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。