Fugu-MT 論文翻訳(概要): From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

論文の概要: From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

arxiv url: http://arxiv.org/abs/2502.01828v2
Date: Tue, 11 Feb 2025 03:00:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 13:59:04.890437
Title: From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment
Title（参考訳）: VLM-In-the-Loop Policy Steering via Latent Alignment
Authors: Yilin Wu, Ran Tian, Gokul Swamy, Andrea Bajcsy,
Abstract要約: FOREWARNは、Vision Language Modelsのランタイムポリシーステアリングの可能性を解き放つ新しいフレームワークである。予見のために、我々は潜在世界モデルを利用して、多様な低レベルアクションプランが与えられた将来の潜在国家を想像する。例えば、VLMをこれらの予測潜在状態と整合させて、そのネイティブ表現におけるアクションの結果を推論する。
参考スコア（独自算出の注目度）: 11.799979691988902
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While generative robot policies have demonstrated significant potential in learning complex, multimodal behaviors from demonstrations, they still exhibit diverse failures at deployment-time. Policy steering offers an elegant solution to reducing the chance of failure by using an external verifier to select from low-level actions proposed by an imperfect generative policy. Here, one might hope to use a Vision Language Model (VLM) as a verifier, leveraging its open-world reasoning capabilities. However, off-the-shelf VLMs struggle to understand the consequences of low-level robot actions as they are represented fundamentally differently than the text and images the VLM was trained on. In response, we propose FOREWARN, a novel framework to unlock the potential of VLMs as open-vocabulary verifiers for runtime policy steering. Our key idea is to decouple the VLM's burden of predicting action outcomes (foresight) from evaluation (forethought). For foresight, we leverage a latent world model to imagine future latent states given diverse low-level action plans. For forethought, we align the VLM with these predicted latent states to reason about the consequences of actions in its native representation--natural language--and effectively filter proposed plans. We validate our framework across diverse robotic manipulation tasks, demonstrating its ability to bridge representational gaps and provide robust, generalizable policy steering. Videos can be found on the project website: https://yilin-wu98.github.io/forewarn/.
Abstract（参考訳）: 生成型ロボットポリシーは、デモから複雑でマルチモーダルな振る舞いを学ぶ上で大きな可能性を示しているが、それでも展開時に様々な失敗を示す。ポリシーステアリングは、不完全な生成ポリシーによって提案される低レベルのアクションから外部検証器を使用して、失敗する可能性を減らすためのエレガントなソリューションを提供する。ここでは、Vision Language Model(VLM)を検証手段として使用し、そのオープンワールド推論機能を活用することを望んでいるかもしれない。しかし、市販のVLMは、VLMが訓練したテキストや画像と根本的に異なることから、低レベルのロボット動作の結果を理解するのに苦労している。そこで本稿では,VLM の可能性を開放する新しいフレームワークである FOREWARN を提案する。我々のキーとなる考え方は、VLMの行動結果(予見)を評価(予見)から切り離すことです。予見のために、我々は潜在世界モデルを利用して、多様な低レベルアクションプランが与えられた将来の潜在国家を想像する。例えば、VLMをこれらの予測された潜在国家と整合させて、その母国語表現における行動の結果を推論し、提案された計画を効果的にフィルタリングする。我々は、多様なロボット操作タスクにまたがるフレームワークを検証するとともに、表現的ギャップを橋渡しし、堅牢で一般化可能なポリシーステアリングを提供する能力を示す。ビデオはプロジェクトのWebサイト(https://yilin-wu98.github.io/forewarn/)で見ることができる。

関連論文リスト

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T20:42:15Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文参考訳（メタデータ） (2024-07-11T17:31:01Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文参考訳（メタデータ） (2024-05-23T04:52:02Z)
Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文参考訳（メタデータ） (2024-03-25T19:04:59Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。 PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文参考訳（メタデータ） (2024-02-12T18:33:47Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)
"Guess what I'm doing": Extending legibility to sequential decision tasks [7.352593846694083]
不確実性を考慮したシーケンシャルな意思決定課題における正当性の概念について検討する。提案手法はPoL-MDPと呼ばれ,不確実性に対処できる。
論文参考訳（メタデータ） (2022-09-19T16:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。