論文の概要: Are Large Reasoning Models Interruptible?
- arxiv url: http://arxiv.org/abs/2510.11713v2
- Date: Tue, 14 Oct 2025 07:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.269947
- Title: Are Large Reasoning Models Interruptible?
- Title(参考訳): 大規模推論モデルは中断可能か?
- Authors: Tsung-Han Wu, Mihran Miroyan, David M. Chan, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez,
- Abstract要約: LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
- 参考スコア(独自算出の注目度): 77.53059044071107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) excel at complex reasoning but are traditionally evaluated in static, "frozen world" settings: model responses are assumed to be instantaneous, and the context of a request is presumed to be immutable over the duration of the response. While generally true for short-term tasks, the "frozen world" assumption breaks down in modern reasoning tasks such as assistive programming, where models may take hours to think through problems and code may change dramatically from the time the model starts thinking to the model's final output. In this work, we challenge the frozen world assumption and evaluate LRM robustness under two realistic dynamic scenarios: interruptions, which test the quality of the model's partial outputs on a limited budget, and dynamic context, which tests model adaptation to in-flight changes. Across mathematics and programming benchmarks that require long-form reasoning, static evaluations consistently overestimate robustness: even state-of-the-art LRMs, which achieve high accuracy in static settings, can fail unpredictably when interrupted or exposed to changing context, with performance dropping by up to 60% when updates are introduced late in the reasoning process. Our analysis further reveals several novel failure modes, including reasoning leakage, where models fold the reasoning into their final answer when interrupted; panic, where under time pressure models abandon reasoning entirely and return incorrect answers; and self-doubt, where performance degrades while incorporating updated information.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な推論において優れるが、伝統的に静的な「凍った世界」設定で評価される:モデル応答は即時であると仮定され、要求のコンテキストは応答の期間にわたって不変であると仮定される。
一般的には短期的なタスクに当てはまるが、"凍結した世界"という仮定は、補助プログラミングのような現代の推論タスクでは分解され、モデルが問題を考えるのに数時間かかるかもしれないし、コードがモデルの最終出力を考えるときから劇的に変化するかもしれない。
本研究では,凍結した世界の仮定に挑戦し,モデル部分出力の品質を限られた予算で検証する割り込みと,飛行中の変化への適応をモデル化する動的コンテキストという,2つの現実的な動的シナリオ下でのLEM頑健性を評価する。
長期の推論を必要とする数学やプログラミングのベンチマークでは、静的な評価が常に頑健さを過大評価している: 静的な設定において高い精度を達成する最先端のLEMでさえ、割り込みやコンテキストの変更に晒された場合、予測不能に失敗し、推論プロセスの後半に更新が導入されるとパフォーマンスが最大60%低下する。
分析ではさらに,割り込み時に推論を最終回答に折り畳み,時間圧下でのパニック,推論を完全に放棄して誤った回答を返す,自己修正,更新された情報を導入しながらパフォーマンスが劣化する,といった,新たな障害モードを明らかにした。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - History-Aware Neural Operator: Robust Data-Driven Constitutive Modeling of Path-Dependent Materials [8.579506050944875]
本研究では、ニューラルネットワークを用いた非弾性材料のデータ駆動モデリングのためのエンドツーエンド学習フレームワークを提案する。
近年のストレス・ストレス・ヒストリーの短い部分から経路依存的な物質応答を予測する自己回帰モデルであるヒストリー・アウェア・ニューラル・オペレータ(HANO)を開発した。
我々は, 脆性固体の弾塑性と進行異方性損傷の2つのベンチマーク問題に対してHANOを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:19:17Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。