論文の概要: Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines
- arxiv url: http://arxiv.org/abs/2604.01029v1
- Date: Wed, 01 Apr 2026 15:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.061826
- Title: Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines
- Title(参考訳): 再構成か再ソルビングか? マルチLLMパイプラインにおける2次パスゲインの分解
- Authors: Jingjie Ning, Xueqi Li, Chengyu Yu,
- Abstract要約: マルチLLMリビジョンの利点はモノリシックではなく,タスク構造,ドラフト品質,ドラフト情報の種類に依存している。
最終的に、マルチLLMリビジョンの有用性は、タスク構造とドラフト品質によって動的にボトルネック化されていることを示す。
- 参考スコア(独自算出の注目度): 0.38720178828275215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.
- Abstract(参考訳): 第2のモデルが第1のモデルで作成されたドラフトをレビューし改善するマルチLLMリビジョンパイプラインは、真の誤り訂正から利益を導き出すと広く想定されている。
この仮定は、4つの整合条件を用いて2次パスゲインを3つの加法成分(解答、足場、内容)に分離する制御分解実験で疑問を呈する。
知識集約型MCQと競合プログラミングにまたがる3つのベンチマークで,この設計を2つのモデルペアで評価した。
この結果から,マルチLLMリビジョンの利得はモノリシックではなく,タスク構造,ドラフト品質,ドラフト情報の種類に依存していることがわかった。
MCQタスクでは、応答空間が制約され、ドラフトが構造的なガイダンスをほとんど提供しないが、ほとんどの利得はより強いモデルの再解決と一致しており、弱いドラフトを変更するよりも、より強いモデルにクエリを直接ルーティングする方が効果的である。
しかし、コード生成タスクでは、セマンティックにヌルなドラフトであっても実質的な構造的な足場を提供することができ、弱いドラフト内容は有害であるため、2段階のプロンプトが有用である。
最後に、ロールリバースな実験は、強いドラフトが弱いレビュアーに明らかに利益をもたらすことを示している。
最終的に、マルチLLMリビジョンの有用性は、タスク構造とドラフト品質によって動的にボトルネック化され、リビジョン戦略を包み込むのではなく、よりターゲットのパイプライン設計を必要とすることが判明した。
関連論文リスト
- TAPS: Task Aware Proposal Distributions for Speculative Sampling [43.87155816175029]
投機的復号化品質がどの程度のドラフトトレーニング分布に依存するかを検討する。
MT-Benchでは,MathInstruct-trained draftが最強であり,ShareGPT-trained draftが最強であることを示す。
また、推論時に特別なドラフトラを組み合わせる方法も研究している。
論文 参考訳(メタデータ) (2026-03-27T22:34:20Z) - DEER: Draft with Diffusion, Verify with Autoregressive Models [33.19684425811274]
投機的復号法は自己回帰復号法の本質的な遅延を緩和する。
効率的な投機的復号化フレームワークであるDEERを紹介する。
実験によると、DEERは最大32個のトークンのドラフト受け入れ長に達する。
論文 参考訳(メタデータ) (2025-12-17T08:19:04Z) - When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding [29.402164743559]
ReSpecは、ドラフト作成を適応的な意思決定に変換する新しいフレームワークである。
Spec-Benchの実験では、ReSpecの最先端アクセラレーションはそれぞれ33%以上と25%以上を達成している。
論文 参考訳(メタデータ) (2025-11-03T06:57:16Z) - Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - Think Twice: Branch-and-Rethink Reasoning Reward Model [32.70732791642558]
本稿では,2ターンのRMであるブランチ・アンド・リコンプリート(BR-RM)について紹介する。
我々は、厳密なフォーマットチェックによる単純なバイナリ結果報酬を用いて、構造化された2ターントレース上でGRPOスタイルの強化学習を訓練する。
All-at-oncescoringinto focus, second-lookreasoning を変換することにより、BR-RMreducesjudgmentdiffusionand は微妙で連続的な誤りに対する感受性を高める。
論文 参考訳(メタデータ) (2025-10-27T17:58:07Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。
我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。
我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T15:59:54Z) - Learning to Decompose: Hypothetical Question Decomposition Based on
Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。
このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-30T15:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。