論文の概要: Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.07815v1
- Date: Mon, 12 May 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.53813
- Title: Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models
- Title(参考訳): メモリガイドによる視覚言語モデルによるエージェント探索を想像して、検証、実行
- Authors: Seungjae Lee, Daniel Ekpo, Haowen Liu, Furong Huang, Abhinav Shrivastava, Jia-Bin Huang,
- Abstract要約: 本稿では,人間の好奇心に触発されたエージェント探索フレームワークIVEを紹介する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
- 参考スコア(独自算出の注目度): 60.675955082094944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration is essential for general-purpose robotic learning, especially in open-ended environments where dense rewards, explicit goals, or task-specific supervision are scarce. Vision-language models (VLMs), with their semantic reasoning over objects, spatial relations, and potential outcomes, present a compelling foundation for generating high-level exploratory behaviors. However, their outputs are often ungrounded, making it difficult to determine whether imagined transitions are physically feasible or informative. To bridge the gap between imagination and execution, we present IVE (Imagine, Verify, Execute), an agentic exploration framework inspired by human curiosity. Human exploration is often driven by the desire to discover novel scene configurations and to deepen understanding of the environment. Similarly, IVE leverages VLMs to abstract RGB-D observations into semantic scene graphs, imagine novel scenes, predict their physical plausibility, and generate executable skill sequences through action tools. We evaluate IVE in both simulated and real-world tabletop environments. The results show that IVE enables more diverse and meaningful exploration than RL baselines, as evidenced by a 4.1 to 7.8x increase in the entropy of visited states. Moreover, the collected experience supports downstream learning, producing policies that closely match or exceed the performance of those trained on human-collected demonstrations.
- Abstract(参考訳): 汎用的なロボット学習には探索が不可欠であり、特に、密集した報酬、明確な目標、タスク固有の監督が不足しているオープンエンド環境においてである。
視覚言語モデル(VLM)は、対象、空間的関係、潜在的な結果に対する意味論的推論を持ち、高レベルの探索行動を生成するための魅力的な基盤を提供する。
しかし、それらのアウトプットはしばしば未定であり、想像された遷移が物理的に実現可能か情報的かを決定することは困難である。
想像と実行のギャップを埋めるために,人間の好奇心に触発されたエージェント探索フレームワークIVE(Imagine, Verify, Execute)を提案する。
人間の探索は、しばしば、新しいシーン構成を発見し、環境の理解を深めたいという欲求によって引き起こされる。
同様に、IVEはVLMを活用して、RGB-D観測をセマンティックシーングラフに抽象化し、新しいシーンを想像し、物理的な妥当性を予測し、アクションツールを通じて実行可能なスキルシーケンスを生成する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
その結果、IVEは、訪問状態のエントロピーの4.1から7.8倍の増加によって証明されるように、RLベースラインよりも多様で有意義な探査を可能にすることが示された。
さらに、収集した経験は下流での学習をサポートし、人間によって訓練された実演で訓練された人々のパフォーマンスと密に一致または超えるポリシーを生成する。
関連論文リスト
- ForesightNav: Learning Scene Imagination for Efficient Exploration [57.49417653636244]
人間の想像力と推論に触発された新しい探索戦略であるForesightNavを提案する。
提案手法は,ロボットエージェントに,未探索領域の占有状況や意味的詳細などの文脈情報を予測する能力を備える。
本研究では,Structured3Dデータセットを用いた想像力に基づくアプローチの有効性を検証し,シーン形状の予測において,正確な占有率予測と優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-22T17:38:38Z) - SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models [22.96777963013918]
固有のモチベーションは、外部のタスクベースの報酬から探索を分離しようとする。
SENSEIはモデルに基づくRLエージェントに意味論的行動の本質的な動機を与えるためのフレームワークである。
論文 参考訳(メタデータ) (2025-03-03T14:26:15Z) - Generative agents in the streets: Exploring the use of Large Language
Models (LLMs) in collecting urban perceptions [0.0]
本研究では,大規模言語モデル(LLM)を用いた生成エージェントの現況について検討する。
この実験では、都市環境と対話するための生成エージェントを用いて、ストリートビューイメージを使用して、特定の目標に向けて旅を計画する。
LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
論文 参考訳(メタデータ) (2023-12-20T15:45:54Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。