Fugu-MT 論文翻訳(概要): DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation

論文の概要: DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation

arxiv url: http://arxiv.org/abs/2308.07498v1
Date: Mon, 14 Aug 2023 23:45:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 14:29:10.877023
Title: DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation
Title（参考訳）: DREAMWALKER:連続視覚言語ナビゲーションのためのメンタルプランニング
Authors: Hanqing Wang, Wei Liang, Luc Van Gool, Wenguan Wang
Abstract要約: 本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
参考スコア（独自算出の注目度）: 107.5934592892763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: VLN-CE is a recently released embodied task, where AI agents need to navigate a freely traversable environment to reach a distant target location, given language instructions. It poses great challenges due to the huge space of possible strategies. Driven by the belief that the ability to anticipate the consequences of future actions is crucial for the emergence of intelligent and interpretable planning behavior, we propose DREAMWALKER -- a world model based VLN-CE agent. The world model is built to summarize the visual, topological, and dynamic properties of the complicated continuous environment into a discrete, structured, and compact representation. DREAMWALKER can simulate and evaluate possible plans entirely in such internal abstract world, before executing costly actions. As opposed to existing model-free VLN-CE agents simply making greedy decisions in the real world, which easily results in shortsighted behaviors, DREAMWALKER is able to make strategic planning through large amounts of ``mental experiments.'' Moreover, the imagined future scenarios reflect our agent's intention, making its decision-making process more transparent. Extensive experiments and ablation studies on VLN-CE dataset confirm the effectiveness of the proposed approach and outline fruitful directions for future work.
Abstract（参考訳）: VLN-CEは先日リリースされた実施型タスクで、AIエージェントが自由に移動可能な環境をナビゲートする必要がある。これは可能な戦略の巨大な空間のために大きな課題となる。知的かつ解釈可能な計画行動の出現には,今後の行動の結果を予測できる能力が不可欠であるという考えから,世界モデルに基づくVLN-CEエージェントであるDREAMWALKERを提案する。世界モデルは、複雑な連続環境の視覚的、トポロジカル、動的特性を離散的で構造化され、コンパクトな表現にまとめるために構築されている。 DREAMWALKERは、コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。既存のモデルフリーのVLN-CEエージェントが現実世界で欲張りな決定を下すのに対して、DREAMWALKERは大量の実験を通じて戦略的な計画を立てることができる。さらに、将来のシナリオはエージェントの意図を反映し、意思決定プロセスをより透明にします。 VLN-CEデータセットの大規模実験とアブレーション研究により,提案手法の有効性を確認し,今後の研究に向けた実りある方向性を概説する。

関連論文リスト

SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model [88.04128601981145]
汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
論文参考訳（メタデータ） (2025-07-31T17:57:20Z)
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。 DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文参考訳（メタデータ） (2025-07-06T16:14:29Z)
SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文参考訳（メタデータ） (2025-05-26T11:50:22Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators [34.28879194786174]
オープンワールド環境における汎用的なロボット移動操作は、長い地平線、複雑な目標、部分的な観測可能性といった大きな課題を生んでいる。これらの課題に対処するための有望なアプローチは、タスクプランナーがこれらのスキルをシーケンスして、構造化言語で指定された目標を達成する、パラメータ化されたスキルのライブラリを計画することである。本稿では、視覚言語モデルを利用して不確実性を推定し、シンボリックグラウンド化を促進する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-04T07:48:53Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems [0.5662299435213421]
本研究では,体験向上型計画フレームワークMINDSTORESを導入し,エージェントがメンタルモデルを構築し,活用できるようにする。 MINDSTORES は,既存のメモリベース LLM プランナよりも学習し,その知識を適用している。
論文参考訳（メタデータ） (2025-01-31T17:15:33Z)
World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。 VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文参考訳（メタデータ） (2024-12-09T11:40:54Z)
Learning World Models for Unconstrained Goal Navigation [4.549550797148707]
本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。 MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-11-03T01:35:06Z)
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。 WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文参考訳（メタデータ） (2024-10-17T05:37:00Z)
Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文参考訳（メタデータ） (2024-09-22T00:30:11Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。 ViLaは、知覚データを推論と計画プロセスに直接統合する。実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文参考訳（メタデータ） (2023-11-29T17:46:25Z)
Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文参考訳（メタデータ） (2022-06-22T22:08:50Z)
Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-05T01:06:53Z)
World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文参考訳（メタデータ） (2020-11-25T02:49:21Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。