論文の概要: DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution
- arxiv url: http://arxiv.org/abs/2605.28678v1
- Date: Wed, 27 May 2026 16:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.199781
- Title: DREAM-R: Multimodal Speculative Reasoning with RL-Based Refined Drafting, Precise Verification, and Fully Parallel Execution
- Title(参考訳): DREAM-R: RL-based Refined Drafting, Precise Verification, Fully Parallel Executionによるマルチモーダル投機推論
- Authors: Yunhai Hu, Zining Liu, Xiangyang Yin, Tianhua Xia, Bo Bao, Eric Sather, Vithursan Thangarasa, Sai Qian Zhang,
- Abstract要約: 投機的推論は、大規模マルチモーダルモデルにおける推論集約生成を加速する手段として提案されている。
本稿では,投機的推論の性能を大幅に向上させるフレームワークであるDREAM-Rを紹介する。
- 参考スコア(独自算出の注目度): 9.286264867106388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative reasoning has recently been proposed as a means to accelerate reasoning-intensive generation in large multimodal models, but its effectiveness is often constrained by misalignment between speculative drafts and target-verified reasoning. In this work, we introduce DREAM-R, a framework that substantially improves the performance of speculative reasoning. At its core, DREAM-R employs Speculative Alignment Policy Optimization (SAPO), a reinforcement-learning objective that trains draft models to generate reasoning steps that are both faithful to target trajectories and concise. We further propose a Threshold-based Verification Mechanism (TBVM) that uses a ratio-based criterion to provide stable and interpretable acceptance of speculative steps only when positive evidence clearly dominates, thereby preventing error propagation. Building on these components, we develop a Fully Parallel Speculative Reasoning (FPSR) framework that parallelizes draft generation, target-side reasoning, and verification across multi-step reasoning, enabling early stopping and clean fallback. Experiments on reasoning-heavy benchmarks demonstrate up to speedup while preserving target-model accuracy, yielding substantial efficiency gains without compromising reasoning quality.
- Abstract(参考訳): 投機的推論は、近年、大規模マルチモーダルモデルにおける推論集約生成を加速する手段として提案されているが、投機的ドラフトと目標検証推論のミスアライメントによって、その効果が制限されることがしばしばある。
本稿では,投機的推論の性能を大幅に向上させるフレームワークであるDREAM-Rを紹介する。
DREAM-Rの中核となるのは、投機的アライメント政策最適化(SAPO)であり、これは、軌道と簡潔性の両方に忠実な推論ステップを生成するためにモデルのドラフトを訓練する強化学習の目標である。
さらに, 正の証拠が支配的であった場合にのみ, 投機的段階の安定かつ解釈可能な受容を実現するために, 比式基準を用いたThreshold-based Verification Mechanism (TBVM)を提案する。
これらのコンポーネント上に構築されたFPSR(Fully Parallel Speculative Reasoning)フレームワークは、ドラフト生成、ターゲット側推論、多段階推論による検証を並列化し、早期停止とクリーンフォールバックを可能にする。
推論重ベンチマークの実験は、目標モデルの精度を維持しながら高速化し、推論品質を損なうことなく実質的な効率向上をもたらす。
関連論文リスト
- MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing [18.35295672031847]
MAVENは、LLMを明示的な役割分離を通じて意図的な推論に変換するように設計されたフレームワークである。
MAVEN は GEMINI-3.1-Pro などの潜在推論モデルより一貫して優れている。
MAVENは完全にモデルに依存しず、強力で伝達可能な推論ブースターとして機能する。
論文 参考訳(メタデータ) (2026-05-08T12:11:08Z) - SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning [12.51459553492698]
自己検証と自己修正(Self-Verification and Self-Rectification、SVSR)は、モデルの推論パイプラインに自己検証と自己修正を統合する統合フレームワークである。
SVSRは複雑な視覚的理解とマルチモーダル推論タスクの堅牢性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-11T14:25:17Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation [20.756497463882763]
逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T12:55:30Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - OneRec-Think: In-Text Reasoning for Generative Recommendation [55.53292983432484]
OneRec-Thinkは、対話、推論、パーソナライズされたレコメンデーションをシームレスに統合する統合フレームワークである。
提案した"Think-Ahead"アーキテクチャは,クアイショーの産業展開を効果的に実現し,app Stay Timeの0.159%のアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:20:13Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。