論文の概要: ReasonIF: Large Reasoning Models Fail to Follow Instructions During Reasoning
- arxiv url: http://arxiv.org/abs/2510.15211v1
- Date: Fri, 17 Oct 2025 00:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.423429
- Title: ReasonIF: Large Reasoning Models Fail to Follow Instructions During Reasoning
- Title(参考訳): ReasonIF:大規模な推論モデルは推論中に指示をフォローできない
- Authors: Yongchan Kwon, Shang Zhu, Federico Bianchi, Kaitlyn Zhou, James Zou,
- Abstract要約: 本稿では、以下の推論命令を評価するためのベンチマークであるReasonIFを紹介する。
オープンソース LRM における命令順守の推論にはかなりの失敗がある。
推論命令の忠実度を高めるための2つの戦略を探求する。
- 参考スコア(独自算出の注目度): 36.50840114804793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of large language models (LLMs) to follow user instructions is central to their reliability, safety, and usefulness. While prior studies assess instruction adherence in the model's main responses, we argue that it is also critical for large reasoning models (LRMs) to follow user instructions throughout their reasoning process. Reasoning instruction following makes LRMs more controllable and transparent, while reducing risks of undesirable shortcuts, hallucinations, or reward hacking within reasoning traces. To evaluate this dimension, we introduce ReasonIF, a systematic benchmark for assessing reasoning instruction following. ReasonIF includes six categories of instruction prompts, spanning multilingual reasoning, formatting and length control. Across many open-source LRMs including GPT-OSS, Qwen3, and DeepSeek-R1, we find substantial failures in reasoning instruction adherence: the highest instruction following score (IFS) remains below 0.25, meaning that fewer than $25\%$ of reasoning traces comply with the given instructions. Notably, as task difficulty increases, reasoning instruction following degrades further. We also explore two strategies to enhance reasoning instruction fidelity. (1) multi-turn reasoning and (2) Reasoning Instruction Finetuning (RIF) using synthetic data. RIF improves the IFS of $GPT-OSS-20B$ from 0.11 to 0.27, indicating measurable progress but leaving ample room for improvement.
- Abstract(参考訳): 大きな言語モデル(LLM)がユーザ指示に従う能力は、その信頼性、安全性、有用性の中心である。
先行研究はモデルの主応答における命令の順守性を評価するが、大きな推論モデル(LRM)が推論プロセスを通してユーザ指示に従うことが重要であるとも主張する。
後続の推論命令により、LSMはより制御可能で透明になり、推論トレース内の望ましくないショートカット、幻覚、報酬ハッキングのリスクを低減できる。
この次元を評価するために、後続の推論命令を評価するための体系的ベンチマークであるReasonIFを導入する。
ReasonIFには命令プロンプトの6つのカテゴリ、多言語推論、フォーマット、長さ制御が含まれる。
GPT-OSS、Qwen3、DeepSeek-R1 など多くのオープンソース LRM では、命令順守の推論に重大な障害がある。
特に、タスクの難易度が増大するにつれて、その後の推論命令はさらに低下する。
また、推論命令の忠実度を高めるための2つの戦略についても検討する。
1)多ターン推論と(2)合成データを用いた推論命令微調整(RIF)
RIFは$GPT-OSS-20B$を0.11から0.27に改善し、測定可能な進歩を示すが、改善の余地は十分にある。
関連論文リスト
- Reasoning Pattern Matters: Learning to Reason without Human Rationales [27.684703630371043]
大規模言語モデル(LLM)は、広く採用されているSFT+RLVRパラダイムの下で顕著な推論能力を示している。
本稿では,推論性能を損なうことなく,合理的アノテーションのコストを大幅に削減する方法について検討する。
論文 参考訳(メタデータ) (2025-10-14T15:34:38Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。