論文の概要: MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action
- arxiv url: http://arxiv.org/abs/2606.06245v1
- Date: Thu, 04 Jun 2026 14:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.869322
- Title: MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action
- Title(参考訳): MPCoT: テスト時間スケーラブルビジョンランゲージ・アクションのためのリワードガイド型マルチパス潜時推論
- Authors: Boyang Zhang, Lianlei Shan,
- Abstract要約: 報奨誘導型マルチパス潜在推論フレームワークMPCoTを提案する。
MPCoTは、$M$仮説を初期化し、K重み付けステップのためにそれらを洗練し、アクションデコーディングの前にそれらをソフトに集約する。
ロングホライゾンのパフォーマンスが向上し、深度幅効果、信頼度重み付け、報酬誘導経路監視が保証される。
- 参考スコア(独自算出の注目度): 6.960597813771435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) policies remain brittle in long-horizon and high-uncertainty control, where one-pass action decoding provides limited inference-time deliberation. Explicit chain-of-thought can increase reasoning depth, but introduces token latency and an indirect text-to-action interface. We propose MPCoT, a reward-guided multi-path latent reasoning framework that initializes $M$ hypotheses, refines them for K weight-tied steps, and softly aggregates them before action decoding. A training-only path-preference objective evaluates candidate action branches with expert-action consistency, world-model/VLM-based progress, and success feedback to align the latent path scorer with downstream execution quality. MPCoT preserves the original 8-step action interface, generates zero reasoning tokens, and exposes configurable inference controls (K,M). Under matched protocols on LIBERO and CALVIN, MPCoT improves long-horizon performance, with ablations confirming depth-width effects, confidence-weighted aggregation, and reward-guided path supervision.
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシーは、ワンパスの動作復号が限定的な推論時熟考を提供するような、長い水平かつ高い不確実性制御において不安定なままである。
明示的なチェーン・オブ・シントは推論の深さを増大させるが、トークンのレイテンシと間接的なテキスト・ツー・アクションインターフェースを導入している。
我々は,MPCoTを提案する。MPCoTは,M$仮説を初期化し,K重み付きステップのためにそれらを洗練し,動作復号前にそれらをソフトに集約する,報酬誘導型多経路潜在推論フレームワークである。
トレーニングのみのパス参照目的は、エキスパートアクション一貫性、ワールドモデル/VLMベースの進捗、および成功フィードバックで候補アクションブランチを評価し、潜在パススコアラを下流実行品質に整合させる。
MPCoTは、元の8ステップアクションインターフェイスを保持し、推論トークンをゼロにし、設定可能な推論制御(K,M)を公開する。
LIBERO と CALVIN のマッチングプロトコルの下では、MPCoT は、深さ幅効果、信頼度重み付け、報酬誘導経路監視など、長期的パフォーマンスを改善している。
関連論文リスト
- TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization [18.977861031175756]
TARPOは純粋なRLフレームワークであり、各ステップで離散トークン生成と連続潜在推論を切り替える。
TARPOは、様々なベンチマークで、既存の明示的で潜在的なRLベースラインよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-06-04T08:30:53Z) - TIER: Trajectory-Invariant Execution Rewards for Multi-Step Tool Composition [62.56752617853322]
アウトカムベースの報酬はスパースフィードバックのみを提供するが、トラジェクトリによる報酬は注釈付き参照ソリューションに依存している。
本稿では,関数スキーマと実行時実行を直接管理する報奨フレームワークであるtrajectory-Invariant Execution Rewardsを提案する。
論文 参考訳(メタデータ) (2026-05-16T03:47:26Z) - CATP: Confidence-Aware Token Pruning for Camouflaged Object Detection [17.488230092440144]
カモフラージ対象検出(COD)に適した階層的信頼度対応トークン抽出フレームワーク(CATP)を提案する。
我々のアプローチは階層的に背景と物体の両方から容易に識別可能なトークンを識別・破棄し、重要な境界トークンに計算を集中させる。
プルーニングからの情報損失を補うために、プルーニングトークンからのコンテキスト知識をリッチな特徴に集約するデュアルパス特徴補償機構を導入する。
論文 参考訳(メタデータ) (2026-04-18T06:03:18Z) - PEPS: Quantum-Inspired Reinforcement Learning for Coherent Reasoning Traces in LLMs [0.0]
大規模言語モデル(LLM)は、コヒーレントな多段階推論トレースの維持にしばしば苦労する。
この研究は、忠実度に基づく報酬を組み込むことによって、この課題に対処する量子的に着想を得たアプローチを導入する。
提案手法は, 教師付き, コントラスト付き, 事前学習されたベースラインアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-24T13:29:53Z) - Vis-CoT: A Human-in-the-Loop Framework for Interactive Visualization and Intervention in LLM Chain-of-Thought Reasoning [0.13192560874022083]
本稿では、リニアチェーン・オブ・シントテキストを対話型推論グラフに変換するヒューマン・イン・ザ・ループ・フレームワークであるVis-CoTを紹介する。
ユーザは論理フローを視覚化し、欠陥のあるステップを特定し、誤ったパスをプルーニングし、新しいユーザ定義のオンプレミスを移植することで介入することができる。
Vis-CoTは、非対話的ベースラインよりも24ポイントまで精度を向上する。
論文 参考訳(メタデータ) (2025-09-01T12:09:43Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [85.22775182688798]
この研究はAlpha-Refineと呼ばれる新しい、柔軟で正確な改良モジュールを提案する。
これにより、ベーストラッカーのボックス推定品質が大幅に向上する。
TrackingNet, LaSOT, GOT-10K, VOT 2020 ベンチマークの実験では,我々のアプローチがベーストラッカのパフォーマンスを大幅に改善し,遅延がほとんどなかった。
論文 参考訳(メタデータ) (2020-12-12T13:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。