Fugu-MT 論文翻訳(概要): Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

論文の概要: Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

arxiv url: http://arxiv.org/abs/2505.17225v1
Date: Thu, 22 May 2025 19:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.660369
Title: Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models
Title（参考訳）: Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models (特集:「Reasoning Models」)
Authors: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang,
Abstract要約: 大規模言語モデルはよく知られた推論パターンに依存している。ユーザーからの明確な指示にもかかわらず、これらのモデルはしばしば明確に述べられた条件をオーバーライドし、習慣的推論の軌跡をデフォルトにしている。この振る舞いは、特に数学や論理パズルのような分野において重要な課題を呈している。
参考スコア（独自算出の注目度）: 27.437685534830457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term \textit{reasoning rigidity}. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, \dataset{}. Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.
Abstract（参考訳）: 大規模言語モデルは、長く複雑な推論タスクにおいて顕著な習熟性を示している。しかし、それらはよく知られた推論パターン、つまり「textit{reasoning rigidity}」と呼ばれる現象に依存している。ユーザーからの明確な指示にもかかわらず、これらのモデルは明確に述べられた条件をオーバーライドし、習慣的推論の軌跡をデフォルトとし、誤った結論を導いた。この振る舞いは、特に数学や論理パズルのような領域において、特定の制約への厳密な順守が不可欠である重要な課題を示す。先行研究でほとんど探索されていない振る舞いである推論剛性について体系的に研究するために、専門家による診断セットである \dataset{} を導入する。我々のデータセットには、AIMEやMATH500といった既存の数学ベンチマークの特別な修正版や、よく知られた推論戦略からの逸脱を必要とするように意図的に再設計されたパズルが含まれています。このデータセットを用いて、モデルが不完全な推論をデフォルトとするときに発生する繰り返し発生する汚染パターンを同定する。具体的には、この汚染を3つの特徴的なモードに分類する。 (i)解釈過負荷 (二)入力不信及び三部分命令の注意、各モデルが提供した指示を無視したり歪んだりすること。言語モデルにおける推論剛性を緩和するための今後の研究を容易にするために,我々の診断セットを公開している。

関連論文リスト

Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis [3.711555701154055]
モデルの推論と実践的なAIチャットボットへの統合は、高度な数学、深い探索、そして抽出された質問応答問題の解決にブレークスルーをもたらした。しかし、これらのモデルが汎用言語モデル以上の幻覚を与える理由についての完全な理解が欠落している。本研究では,マルチホップ質問応答タスクにおける現代言語モデルの推論失敗を系統的に解明する。
論文参考訳（メタデータ） (2025-08-06T17:58:36Z)
Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-07-19T00:06:13Z)
Mathematical Proof as a Litmus Test: Revealing Failure Modes of Advanced Large Reasoning Models [11.250861762443801]
RFMDataset(Reveal Failure Modes)は200種類の数学的証明問題の集合である。先進モデルの性能を徹底的に評価する。解析により,現在の大規模推論モデルの基本的制約を示す10種類のきめ細かい誤差型が明らかになった。
論文参考訳（メタデータ） (2025-06-20T16:14:18Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。 LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文参考訳（メタデータ） (2025-05-17T05:36:14Z)
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文参考訳（メタデータ） (2025-04-17T22:16:30Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
A Critical Assessment of Interpretable and Explainable Machine Learning for Intrusion Detection [0.0]
本稿では,過度に複雑で不透明なMLモデル,不均衡なデータと相関した特徴,異なる説明法における不整合な影響特徴,そして説明の不可能な有用性について検討する。具体的には、Deep Neural Networksのような複雑な不透明モデルを避け、代わりにDecision Treesのような解釈可能なMLモデルを使用することを推奨する。機能ベースのモデル説明は、多くの場合、異なる設定で矛盾している。
論文参考訳（メタデータ） (2024-07-04T15:35:42Z)
Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文参考訳（メタデータ） (2023-06-01T17:44:35Z)
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文参考訳（メタデータ） (2022-10-21T15:12:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。