Fugu-MT 論文翻訳(概要): When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs

論文の概要: When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs

arxiv url: http://arxiv.org/abs/2505.11423v2
Date: Tue, 20 May 2025 05:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 12:33:37.397635
Title: When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs
Title（参考訳）: 失敗を考える: LLMにおける指示追従のための推論の落とし穴
Authors: Xiaomin Li, Zhou Yu, Zhiwei Zhang, Xupeng Chen, Ziji Zhang, Yingying Zhuang, Narayanan Sadagopan, Anurag Beniwal,
Abstract要約: 連鎖推論は命令追従精度を著しく低下させる。これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
参考スコア（独自算出の注目度）: 16.659986373052217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reasoning-enhanced large language models (RLLMs), whether explicitly trained for reasoning or prompted via chain-of-thought (CoT), have achieved state-of-the-art performance on many complex reasoning tasks. However, we uncover a surprising and previously overlooked phenomenon: explicit CoT reasoning can significantly degrade instruction-following accuracy. Evaluating 15 models on two benchmarks: IFEval (with simple, rule-verifiable constraints) and ComplexBench (with complex, compositional constraints), we consistently observe performance drops when CoT prompting is applied. Through large-scale case studies and an attention-based analysis, we identify common patterns where reasoning either helps (e.g., with formatting or lexical precision) or hurts (e.g., by neglecting simple constraints or introducing unnecessary content). We propose a metric, constraint attention, to quantify model focus during generation and show that CoT reasoning often diverts attention away from instruction-relevant tokens. To mitigate these effects, we introduce and evaluate four strategies: in-context learning, self-reflection, self-selective reasoning, and classifier-selective reasoning. Our results demonstrate that selective reasoning strategies, particularly classifier-selective reasoning, can substantially recover lost performance. To our knowledge, this is the first work to systematically expose reasoning-induced failures in instruction-following and offer practical mitigation strategies.
Abstract（参考訳）: Reasoning-enhanced large language model (RLLMs) は、推論のために明示的に訓練されたり、チェーン・オブ・シークレット (CoT) によって引き起こされたりするが、多くの複雑な推論タスクにおいて最先端のパフォーマンスを達成した。明示的なCoT推論は命令追従精度を著しく低下させる可能性がある。 IFEval (ルール検証可能な制約付き) と ComplexBench (複雑な構成制約付き) の2つのベンチマークで15のモデルを評価する。大規模ケーススタディと注意に基づく分析を通じて、簡単な制約を無視したり、不要なコンテンツを導入することによって、推論(例えば、フォーマッティングや語彙の精度)や障害(例えば、不要なコンテンツの導入)が役立つ一般的なパターンを特定します。生成過程におけるモデル焦点の定量化と、CoT推論が命令関連トークンからしばしば注意を逸脱することを示すために、計量的、制約的注意法を提案する。これらの効果を緩和するために、文脈内学習、自己回帰、自己選択推論、分類器選択推論の4つの戦略を導入・評価する。以上の結果から,選択的推論戦略,特に分類器選択的推論は,失われた性能を著しく回復できることが示された。我々の知る限り、これは推論による命令追従の失敗を体系的に公開し、実用的な緩和戦略を提供する最初の試みである。

関連論文リスト

Learning Deliberately, Acting Intuitively: Unlocking Test-Time Reasoning in Multimodal LLMs [7.501387372794562]
Deliberate-to-Intuitive reasoning framework (D2I)はマルチモーダル言語モデルの理解と推論能力を改善する。本手法は,学習中の規則に基づく形式報酬のみを通じて,モダリティアライメントを高めるための意図的な推論戦略を定めている。評価中、推論スタイルは直感に移行し、トレーニング中の意図的な推論戦略を取り除き、モデルが獲得した応答能力を暗黙的に反映する。
論文参考訳（メタデータ） (2025-07-09T16:25:44Z)
Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文参考訳（メタデータ） (2025-06-17T06:04:01Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective [59.7140089198992]
抽象的推論を本質的なパターンを抽出する能力として定義する数学的枠組みを開発する。基本的な推論精度を計測する(scoreGamma)と、特定のシンボルに依存するモデルの定量化(scoreDelta)である。
論文参考訳（メタデータ） (2025-05-28T09:02:45Z)
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文参考訳（メタデータ） (2025-05-20T18:18:01Z)
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。 CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文参考訳（メタデータ） (2025-04-07T13:51:06Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval [33.84832445715185]
大規模言語モデル(LLM)は、要求される能力よりもはるかに短い有効文脈長を示すことが多い。本研究では,注意重みを利用した学習自由度アルゴリズムAttrievalを提案する。以上の結果から,Attrievalは,合成QAデータセットと実世界のQAデータセットの両方において,長文推論能力の向上を図っている。
論文参考訳（メタデータ） (2025-03-12T20:34:14Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文参考訳（メタデータ） (2024-06-04T14:02:53Z)
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文参考訳（メタデータ） (2024-04-14T07:19:27Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。