論文の概要: Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.19372v1
- Date: Sun, 22 Feb 2026 22:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.611022
- Title: Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization
- Title(参考訳): より遠く、より賢く見る:VLM政策最適化のための値誘導マルチパス反射
- Authors: Yanting Yang, Shenyuan Gao, Qingwen Bu, Li Chen, Dimitris N. Metaxas,
- Abstract要約: VLM(Vision-Language Models)は、この目標に対して、一般的なパーセプティブ・レアソン・アクティベート・フレームワークを提供する。
従来のアプローチは、ノイズの多い予見予測から状態値の非効率で、しばしば不正確な暗黙の学習に依存していた。
動作生成から状態評価を分離する新しいテスト時間計算フレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.15414881730464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complex, long-horizon robotic manipulation tasks requires a deep understanding of physical interactions, reasoning about their long-term consequences, and precise high-level planning. Vision-Language Models (VLMs) offer a general perceive-reason-act framework for this goal. However, previous approaches using reflective planning to guide VLMs in correcting actions encounter significant limitations. These methods rely on inefficient and often inaccurate implicit learning of state-values from noisy foresight predictions, evaluate only a single greedy future, and suffer from substantial inference latency. To address these limitations, we propose a novel test-time computation framework that decouples state evaluation from action generation. This provides a more direct and fine-grained supervisory signal for robust decision-making. Our method explicitly models the advantage of an action plan, quantified by its reduction in distance to the goal, and uses a scalable critic to estimate. To address the stochastic nature of single-trajectory evaluation, we employ beam search to explore multiple future paths and aggregate them during decoding to model their expected long-term returns, leading to more robust action generation. Additionally, we introduce a lightweight, confidence-based trigger that allows for early exit when direct predictions are reliable, invoking reflection only when necessary. Extensive experiments on diverse, unseen multi-stage robotic manipulation tasks demonstrate a 24.6% improvement in success rate over state-of-the-art baselines, while significantly reducing inference time by 56.5%.
- Abstract(参考訳): 複雑な、長期にわたるロボット操作タスクを解決するには、物理的な相互作用の深い理解、長期的な結果の推論、そして正確な高レベルの計画が必要である。
VLM(Vision-Language Models)は、この目標に対して、一般的なパーセプティブ・レアソン・アクティベート・フレームワークを提供する。
しかし、従来のリフレクティブプランニングによる行動修正におけるVLMの誘導には、重大な制限が伴っていた。
これらの手法は、ノイズの多い前向きの予測から状態値の非効率性や、しばしば不正確な暗黙的な学習に依存し、単一の欲求未来のみを評価し、かなりの推論遅延に悩まされる。
これらの制約に対処するため,動作生成から状態評価を分離する新しいテスト時間計算フレームワークを提案する。
これにより、堅牢な意思決定のためのより直接的できめ細かな監督信号が提供される。
本手法は,目標までの距離の減少によって定量化される行動計画の利点を明示的にモデル化し,スケーラブルな評論家を用いて推定する。
単一軌道評価の確率的性質に対処するために、ビームサーチを用いて複数の将来の経路を探索し、デコード中にそれらを集約し、予測される長期的なリターンをモデル化し、より堅牢なアクション生成をもたらす。
さらに、信頼度に基づく軽量なトリガを導入し、直接予測が信頼できる場合に早期退避を可能にし、必要な時にのみリフレクションを起動する。
多様な、目に見えない多段階ロボット操作タスクに関する大規模な実験は、最先端のベースラインよりも24.6%向上し、推論時間を56.5%削減した。
関連論文リスト
- Why Reasoning Fails to Plan: A Planning-Centric Analysis of Long-Horizon Decision Making in LLM Agents [42.09897801169138]
大規模言語モデル(LLM)に基づくエージェントは、短い地平線上でのステップバイステップ推論能力を示すが、長い計画地平線上でのコヒーレントな振舞いを維持できないことが多い。
我々は、ステップワイズ推論は、短い地平線に適しているが、長期計画では失敗するステップワイズ欲求政策の形式を誘導すると主張する。
我々は、FLAREを将来の計画の最小限のインスタンス化として導入し、明示的なルックアヘッド、価値伝播、限定的なコミットメントを1つのモデルで実施する。
論文 参考訳(メタデータ) (2026-01-29T20:52:32Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Value Vision-Language-Action Planning & Search [1.631000263754549]
VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場した。
本稿では,モンテカルロ木探索を軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search(V-VLAPS)を紹介する。
LIBEROロボット操作スイート上でのV-VLAPSを評価し、価値誘導探索が成功率を5%以上向上することを示した。
論文 参考訳(メタデータ) (2026-01-02T19:40:34Z) - WALDO: Where Unseen Model-based 6D Pose Estimation Meets Occlusion [13.760323763554448]
モデルに基づく6次元ポーズ推定法に対する4つの新しい拡張を提案する。
提案手法は,IABINの精度が5%以上向上し,BOPデータセットのベンチマークでは2%以上向上していることを示す。
論文 参考訳(メタデータ) (2025-11-19T21:01:49Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Accuracy Law for the Future of Deep Time Series Forecasting [65.46625911002202]
時系列予測は、部分的に観測可能で不確実な性質のため、本質的にゼロでない誤差の低い境界に直面する。
本稿では、ディープ時系列予測の性能上限をどうやって推定するかという根本的な問題に焦点をあてる。
新たに訓練された2,800以上の深層予測器の厳密な統計的テストに基づいて、深部モデルの最小予測誤差とウィンドウワイズ級数パターンの複雑さとの間に有意な指数関数的関係を見出した。
論文 参考訳(メタデータ) (2025-10-03T05:18:47Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。