Fugu-MT 論文翻訳(概要): Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

論文の概要: Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

arxiv url: http://arxiv.org/abs/2505.14810v1
Date: Tue, 20 May 2025 18:18:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.70069
Title: Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
Title（参考訳）: 推論と損失制御のスケーリング:大規模推論モデルにおける命令追従の評価
Authors: Tingchen Fu, Jiawei Gu, Yafu Li, Xiaoye Qu, Yu Cheng,
Abstract要約: 数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
参考スコア（独自算出の注目度）: 27.142703756752997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-following is essential for aligning large language models (LLMs) with user intent. While recent reasoning-oriented models exhibit impressive performance on complex mathematical problems, their ability to adhere to natural language instructions remains underexplored. In this work, we introduce MathIF, a dedicated benchmark for evaluating instruction-following in mathematical reasoning tasks. Our empirical analysis reveals a consistent tension between scaling up reasoning capacity and maintaining controllability, as models that reason more effectively often struggle to comply with user directives. We find that models tuned on distilled long chains-of-thought or trained with reasoning-oriented reinforcement learning often degrade in instruction adherence, especially when generation length increases. Furthermore, we show that even simple interventions can partially recover obedience, though at the cost of reasoning performance. These findings highlight a fundamental tension in current LLM training paradigms and motivate the need for more instruction-aware reasoning models. We release the code and data at https://github.com/TingchenFu/MathIF.
Abstract（参考訳）: インストラクションフォローは、大きな言語モデル(LLM)とユーザ意図の整合に不可欠である。最近の推論指向モデルは複雑な数学的問題に対して優れた性能を示すが、自然言語の命令に従属する能力は未解明のままである。本研究では,数学的推論タスクにおける指示追従評価のための専用のベンチマークであるMathIFを紹介する。私たちの経験的分析は、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係を明らかにします。理論指向の強化学習で訓練された蒸留長鎖に調整されたモデルが、特に生成長が増加すると、命令順守時にしばしば劣化することがわかった。さらに, 簡単な介入であっても, 推論性能を犠牲にして, 服従を部分的に回復できることが示唆された。これらの知見は、現在のLLMトレーニングパラダイムにおける根本的な緊張を浮き彫りにして、より命令対応の推論モデルの必要性を動機付けている。コードとデータはhttps://github.com/TingchenFu/MathIF.comで公開しています。

関連論文リスト

Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-07-19T00:06:13Z)
Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [32.96074934023323]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文参考訳（メタデータ） (2025-06-15T20:54:23Z)
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [16.659986373052217]
連鎖推論は命令追従精度を著しく低下させる。これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文参考訳（メタデータ） (2025-05-16T16:36:00Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction [34.86855316803838]
我々は、真の推論とメモリリコールのバランスを制御できるモデル残差ストリームの線形特徴セットを同定する。これらの推論機能に介入することで、解答生成時に最も関連性の高い問題解決能力をモデルがより正確に活性化できることが示される。
論文参考訳（メタデータ） (2025-03-29T14:00:44Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文参考訳（メタデータ） (2023-06-21T20:47:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。