論文の概要: Fail Fast, or Ask: Mitigating the Deficiencies of Reasoning LLMs with Human-in-the-Loop Systems Engineering
- arxiv url: http://arxiv.org/abs/2507.14406v1
- Date: Fri, 18 Jul 2025 23:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.87561
- Title: Fail Fast, or Ask: Mitigating the Deficiencies of Reasoning LLMs with Human-in-the-Loop Systems Engineering
- Title(参考訳): フェールファスト, あるいは質問:ヒューマン・イン・ザ・ループ・システム・エンジニアリングによるLLMの推論の欠陥の軽減
- Authors: Michael J. Zellinger, Matt Thomson,
- Abstract要約: 推論モデルの不確実性の定量化は,人間への推論に有効な基礎を与えることを示す。
私たちはこの改造された人型ループシステム「Fail Fast, or Ask」と呼んでいる。
このアプローチがDeepSeek R1の40%のレイテンシ削減と約50%のコスト削減をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.9208007322096532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art reasoning LLMs are powerful problem solvers, but they still occasionally make mistakes. However, adopting AI models in risk-sensitive domains often requires error rates near 0%. To address this gap, we propose collaboration between a reasoning model and a human expert who resolves queries the model cannot confidently answer. We find that quantifying the uncertainty of a reasoning model through the length of its reasoning trace yields an effective basis for deferral to a human, e.g., cutting the error rate of Qwen3 235B-A22B on difficult MATH problems from 3% to less than 1% when deferring 7.5% of queries. However, the high latency of reasoning models still makes them challenging to deploy on use cases with high query volume. To address this challenge, we explore fronting a reasoning model with a large non-reasoning model. We call this modified human-in-the-loop system "Fail Fast, or Ask", since the non-reasoning model may defer difficult queries to the human expert directly ("failing fast"), without incurring the reasoning model's higher latency. We show that this approach yields around 40% latency reduction and about 50% cost savings for DeepSeek R1 while maintaining 90+% area under the accuracy-rejection curve. However, we observe that latency savings are lower than expected because of "latency drag", the phenomenon that processing easier queries with a non-reasoning model pushes the reasoning model's latency distribution towards longer latencies. Broadly, our results suggest that the deficiencies of state-of-the-art reasoning models -- nontrivial error rates and high latency -- can be substantially mitigated through black-box systems engineering, without requiring access to LLM internals.
- Abstract(参考訳): 最先端の推論 LLM は強力な問題解決ツールだが、それでも時折間違いを犯すことがある。
しかしながら、リスクに敏感なドメインにAIモデルを採用する場合、エラー率を0%近く必要とします。
このギャップに対処するために、モデルが自信を持って答えられないクエリを解消する推論モデルと人間専門家との協調を提案する。
推理トレースの長さによる推論モデルの不確かさの定量化は、例えば、Qwen3 235B-A22Bの誤り率を、クエリの7.5%を遅延した場合の難解なMATH問題の3%から1%以下に削減する有効な基礎となる。
しかし、推論モデルのレイテンシが高いため、高いクエリ量を持つユースケースへのデプロイは困難である。
この課題に対処するために、我々は、大きな非推論モデルで推論モデルを構築することを検討する。
非推論モデルは、推論モデルの高いレイテンシを発生させることなく、人間のエキスパートに直接難しいクエリを推論する("失敗する")ため、この修正されたヒューマン・イン・ザ・ループ・システム"フェイル・ファスト(Fail Fast, or Ask)"と呼ぶ。
提案手法により,DeepSeek R1の遅延の約40%の低減と約50%のコスト削減が達成され,精度低下曲線の下で90%以上の面積を維持した。
しかし、非推論モデルによるクエリの処理がより容易になる現象である「遅延ドラッグ」により、レイテンシの削減が期待より低くなることが観察された。
この結果から,LLM内部へのアクセスを必要とせずに,非自明なエラー率と高いレイテンシーという最先端の推論モデルの欠陥が,ブラックボックスシステム工学によって大幅に軽減される可能性が示唆された。
関連論文リスト
- To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations [5.275682987885503]
我々は,前世代のアクティベーションに関する線形プローブを訓練し,数学やコーディングタスクにおける政策固有の成功を予測する。
モデルが人間の難易度とは異なる難易度のモデル固有の概念を符号化していることを示す。
モデルプールをまたいでクエリをルーティングすることは、最高のパフォーマンスモデルを超えることができることを実証する。
論文 参考訳(メタデータ) (2026-02-10T15:57:00Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - Towards Flash Thinking via Decoupled Advantage Policy Optimization [11.025775055262569]
大規模共振モデル(LRM)は、教師付き微調整(SFT)と強化学習(RL)によって複雑な問題を解く際、顕著な性能を達成した。
既存のRLアルゴリズムは、過度に長い応答と過度な問題に悩まされ、推論遅延と計算消費が増大する。
本稿では,モデルに対する非効率推論を減らすために,新しいRLフレームワークDEPOを提案する。
論文 参考訳(メタデータ) (2025-10-17T07:19:20Z) - Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - FlashThink: An Early Exit Method For Efficient Reasoning [2.1448740411847593]
大規模言語モデル(LLM)は、推論タスクにおいて素晴らしいパフォーマンスを示している。
LLMは、過度に長い推論内容を生成する傾向があり、計算オーバーヘッドが大きくなる。
我々は、モデルが推論を止め、正しい答えを提供することができる正確なタイミングを識別する検証モデルを導入する。
論文 参考訳(メタデータ) (2025-05-20T05:28:21Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Long Is More Important Than Difficult for Training Reasoning Models [21.369780872368143]
問題の難しさよりも推論長が、主に訓練されたモデルの性能に影響を及ぼすことを示す。
このモデルであるLong1K-32Bは,1,000のトレーニングサンプルだけで優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-03-23T13:33:59Z) - DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs [3.850766603072179]
大規模言語モデル (LLM) を評価するためにDon't Reason Bench (DNR Bench) を導入する。
DNR Benchは、人間が容易に理解し、反応できる150個の逆向きのプロンプトで構成されている。
我々の実験により、RTMは必要以上に最大70倍のトークンを生成し、より単純な非推論モデルがより高精度で効率的に処理するタスクに失敗することが判明した。
論文 参考訳(メタデータ) (2025-03-20T02:19:14Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。