論文の概要: Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.17225v1
- Date: Thu, 22 May 2025 19:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.660369
- Title: Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models
- Title(参考訳): Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models (特集:「Reasoning Models」)
- Authors: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang,
- Abstract要約: 大規模言語モデルはよく知られた推論パターンに依存している。
ユーザーからの明確な指示にもかかわらず、これらのモデルはしばしば明確に述べられた条件をオーバーライドし、習慣的推論の軌跡をデフォルトにしている。
この振る舞いは、特に数学や論理パズルのような分野において重要な課題を呈している。
- 参考スコア(独自算出の注目度): 27.437685534830457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term \textit{reasoning rigidity}. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, \dataset{}. Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.
- Abstract(参考訳): 大規模言語モデルは、長く複雑な推論タスクにおいて顕著な習熟性を示している。
しかし、それらはよく知られた推論パターン、つまり「textit{reasoning rigidity}」と呼ばれる現象に依存している。
ユーザーからの明確な指示にもかかわらず、これらのモデルは明確に述べられた条件をオーバーライドし、習慣的推論の軌跡をデフォルトとし、誤った結論を導いた。
この振る舞いは、特に数学や論理パズルのような領域において、特定の制約への厳密な順守が不可欠である重要な課題を示す。
先行研究でほとんど探索されていない振る舞いである推論剛性について体系的に研究するために、専門家による診断セットである \dataset{} を導入する。
我々のデータセットには、AIMEやMATH500といった既存の数学ベンチマークの特別な修正版や、よく知られた推論戦略からの逸脱を必要とするように意図的に再設計されたパズルが含まれています。
このデータセットを用いて、モデルが不完全な推論をデフォルトとするときに発生する繰り返し発生する汚染パターンを同定する。
具体的には、この汚染を3つの特徴的なモードに分類する。
(i)解釈過負荷
(二)入力不信及び
三 部分命令の注意、各モデルが提供した指示を無視したり歪んだりすること。
言語モデルにおける推論剛性を緩和するための今後の研究を容易にするために,我々の診断セットを公開している。
関連論文リスト
- Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。
LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。
実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。
解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文 参考訳(メタデータ) (2025-05-17T05:36:14Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - A Critical Assessment of Interpretable and Explainable Machine Learning for Intrusion Detection [0.0]
本稿では,過度に複雑で不透明なMLモデル,不均衡なデータと相関した特徴,異なる説明法における不整合な影響特徴,そして説明の不可能な有用性について検討する。
具体的には、Deep Neural Networksのような複雑な不透明モデルを避け、代わりにDecision Treesのような解釈可能なMLモデルを使用することを推奨する。
機能ベースのモデル説明は、多くの場合、異なる設定で矛盾している。
論文 参考訳(メタデータ) (2024-07-04T15:35:42Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。