論文の概要: Fail Fast, or Ask: Mitigating the Deficiencies of Reasoning LLMs with Human-in-the-Loop Systems Engineering
- arxiv url: http://arxiv.org/abs/2507.14406v1
- Date: Fri, 18 Jul 2025 23:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.87561
- Title: Fail Fast, or Ask: Mitigating the Deficiencies of Reasoning LLMs with Human-in-the-Loop Systems Engineering
- Title(参考訳): フェールファスト, あるいは質問:ヒューマン・イン・ザ・ループ・システム・エンジニアリングによるLLMの推論の欠陥の軽減
- Authors: Michael J. Zellinger, Matt Thomson,
- Abstract要約: 推論モデルの不確実性の定量化は,人間への推論に有効な基礎を与えることを示す。
私たちはこの改造された人型ループシステム「Fail Fast, or Ask」と呼んでいる。
このアプローチがDeepSeek R1の40%のレイテンシ削減と約50%のコスト削減をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.9208007322096532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art reasoning LLMs are powerful problem solvers, but they still occasionally make mistakes. However, adopting AI models in risk-sensitive domains often requires error rates near 0%. To address this gap, we propose collaboration between a reasoning model and a human expert who resolves queries the model cannot confidently answer. We find that quantifying the uncertainty of a reasoning model through the length of its reasoning trace yields an effective basis for deferral to a human, e.g., cutting the error rate of Qwen3 235B-A22B on difficult MATH problems from 3% to less than 1% when deferring 7.5% of queries. However, the high latency of reasoning models still makes them challenging to deploy on use cases with high query volume. To address this challenge, we explore fronting a reasoning model with a large non-reasoning model. We call this modified human-in-the-loop system "Fail Fast, or Ask", since the non-reasoning model may defer difficult queries to the human expert directly ("failing fast"), without incurring the reasoning model's higher latency. We show that this approach yields around 40% latency reduction and about 50% cost savings for DeepSeek R1 while maintaining 90+% area under the accuracy-rejection curve. However, we observe that latency savings are lower than expected because of "latency drag", the phenomenon that processing easier queries with a non-reasoning model pushes the reasoning model's latency distribution towards longer latencies. Broadly, our results suggest that the deficiencies of state-of-the-art reasoning models -- nontrivial error rates and high latency -- can be substantially mitigated through black-box systems engineering, without requiring access to LLM internals.
- Abstract(参考訳): 最先端の推論 LLM は強力な問題解決ツールだが、それでも時折間違いを犯すことがある。
しかしながら、リスクに敏感なドメインにAIモデルを採用する場合、エラー率を0%近く必要とします。
このギャップに対処するために、モデルが自信を持って答えられないクエリを解消する推論モデルと人間専門家との協調を提案する。
推理トレースの長さによる推論モデルの不確かさの定量化は、例えば、Qwen3 235B-A22Bの誤り率を、クエリの7.5%を遅延した場合の難解なMATH問題の3%から1%以下に削減する有効な基礎となる。
しかし、推論モデルのレイテンシが高いため、高いクエリ量を持つユースケースへのデプロイは困難である。
この課題に対処するために、我々は、大きな非推論モデルで推論モデルを構築することを検討する。
非推論モデルは、推論モデルの高いレイテンシを発生させることなく、人間のエキスパートに直接難しいクエリを推論する("失敗する")ため、この修正されたヒューマン・イン・ザ・ループ・システム"フェイル・ファスト(Fail Fast, or Ask)"と呼ぶ。
提案手法により,DeepSeek R1の遅延の約40%の低減と約50%のコスト削減が達成され,精度低下曲線の下で90%以上の面積を維持した。
しかし、非推論モデルによるクエリの処理がより容易になる現象である「遅延ドラッグ」により、レイテンシの削減が期待より低くなることが観察された。
この結果から,LLM内部へのアクセスを必要とせずに,非自明なエラー率と高いレイテンシーという最先端の推論モデルの欠陥が,ブラックボックスシステム工学によって大幅に軽減される可能性が示唆された。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - FlashThink: An Early Exit Method For Efficient Reasoning [2.1448740411847593]
大規模言語モデル(LLM)は、推論タスクにおいて素晴らしいパフォーマンスを示している。
LLMは、過度に長い推論内容を生成する傾向があり、計算オーバーヘッドが大きくなる。
我々は、モデルが推論を止め、正しい答えを提供することができる正確なタイミングを識別する検証モデルを導入する。
論文 参考訳(メタデータ) (2025-05-20T05:28:21Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Long Is More Important Than Difficult for Training Reasoning Models [21.369780872368143]
問題の難しさよりも推論長が、主に訓練されたモデルの性能に影響を及ぼすことを示す。
このモデルであるLong1K-32Bは,1,000のトレーニングサンプルだけで優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-03-23T13:33:59Z) - DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs [3.850766603072179]
大規模言語モデル (LLM) を評価するためにDon't Reason Bench (DNR Bench) を導入する。
DNR Benchは、人間が容易に理解し、反応できる150個の逆向きのプロンプトで構成されている。
我々の実験により、RTMは必要以上に最大70倍のトークンを生成し、より単純な非推論モデルがより高精度で効率的に処理するタスクに失敗することが判明した。
論文 参考訳(メタデータ) (2025-03-20T02:19:14Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。