論文の概要: DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2308.07498v1
- Date: Mon, 14 Aug 2023 23:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:29:10.877023
- Title: DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation
- Title(参考訳): DREAMWALKER:連続視覚言語ナビゲーションのためのメンタルプランニング
- Authors: Hanqing Wang, Wei Liang, Luc Van Gool, Wenguan Wang
- Abstract要約: 本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
- 参考スコア(独自算出の注目度): 107.5934592892763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VLN-CE is a recently released embodied task, where AI agents need to navigate
a freely traversable environment to reach a distant target location, given
language instructions. It poses great challenges due to the huge space of
possible strategies. Driven by the belief that the ability to anticipate the
consequences of future actions is crucial for the emergence of intelligent and
interpretable planning behavior, we propose DREAMWALKER -- a world model based
VLN-CE agent. The world model is built to summarize the visual, topological,
and dynamic properties of the complicated continuous environment into a
discrete, structured, and compact representation. DREAMWALKER can simulate and
evaluate possible plans entirely in such internal abstract world, before
executing costly actions. As opposed to existing model-free VLN-CE agents
simply making greedy decisions in the real world, which easily results in
shortsighted behaviors, DREAMWALKER is able to make strategic planning through
large amounts of ``mental experiments.'' Moreover, the imagined future
scenarios reflect our agent's intention, making its decision-making process
more transparent. Extensive experiments and ablation studies on VLN-CE dataset
confirm the effectiveness of the proposed approach and outline fruitful
directions for future work.
- Abstract(参考訳): VLN-CEは先日リリースされた実施型タスクで、AIエージェントが自由に移動可能な環境をナビゲートする必要がある。
これは可能な戦略の巨大な空間のために大きな課題となる。
知的かつ解釈可能な計画行動の出現には,今後の行動の結果を予測できる能力が不可欠であるという考えから,世界モデルに基づくVLN-CEエージェントであるDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、トポロジカル、動的特性を離散的で構造化され、コンパクトな表現にまとめるために構築されている。
DREAMWALKERは、コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
既存のモデルフリーのVLN-CEエージェントが現実世界で欲張りな決定を下すのに対して、DREAMWALKERは大量の実験を通じて戦略的な計画を立てることができる。
さらに、将来のシナリオはエージェントの意図を反映し、意思決定プロセスをより透明にします。
VLN-CEデータセットの大規模実験とアブレーション研究により,提案手法の有効性を確認し,今後の研究に向けた実りある方向性を概説する。
関連論文リスト
- HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Egocentric Planning for Scalable Embodied Task Achievement [6.870094263016224]
エゴセントリックプランニング(Egocentric Planning)は、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向のPOMDPを組み合わせた革新的なアプローチである。
国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し,そのスケーラビリティを実証した。
本手法では, エージェントの行動の前提条件と影響について, 信頼性の高い認識と記号的記述の特定, 学習が必要である。
論文 参考訳(メタデータ) (2023-06-02T06:41:24Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。