論文の概要: Generative World Explorer
- arxiv url: http://arxiv.org/abs/2411.11844v2
- Date: Tue, 19 Nov 2024 18:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:57.507035
- Title: Generative World Explorer
- Title(参考訳): ジェネレーティブワールドエクスプローラー
- Authors: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen,
- Abstract要約: 部分観察による計画は、AIの具体化における中心的な課題である。
我々は,エゴセントリックな世界探査フレームワークであるtextitGenerative World Explorer (Genex)$を紹介した。
Genexは、エージェントが大規模3D世界を精神的に探索し、その信念を更新するために想像された観察を得ることを可能にする。
- 参考スコア(独自算出の注目度): 28.135416905073313
- License:
- Abstract: Planning with partial observation is a central challenge in embodied AI. A majority of prior works have tackled this challenge by developing agents that physically explore their environment to update their beliefs about the world state. In contrast, humans can $\textit{imagine}$ unseen parts of the world through a mental exploration and $\textit{revise}$ their beliefs with imagined observations. Such updated beliefs can allow them to make more informed decisions, without necessitating the physical exploration of the world at all times. To achieve this human-like ability, we introduce the $\textit{Generative World Explorer (Genex)}$, an egocentric world exploration framework that allows an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and acquire imagined observations to update its belief. This updated belief will then help the agent to make a more informed decision at the current step. To train $\textit{Genex}$, we create a synthetic urban scene dataset, Genex-DB. Our experimental results demonstrate that (1) $\textit{Genex}$ can generate high-quality and consistent observations during long-horizon exploration of a large virtual physical world and (2) the beliefs updated with the generated observations can inform an existing decision-making model (e.g., an LLM agent) to make better plans.
- Abstract(参考訳): 部分観察による計画は、AIの具体化における中心的な課題である。
これまでの研究の多くは、世界国家に対する信念を更新するために、環境を物理的に探索するエージェントを開発することで、この問題に対処してきた。
対照的に、人間は精神的な探索を通じて世界の目に見えない部分を$\textit{imagine}$と、想像された観察を伴う信念を$\textit{revise}$にすることができる。
このような更新された信念は、常に世界の物理探査を必要とせず、より情報的な決定を下すことができる。
この人間的な能力を達成するために、エージェントが大規模3D世界(都市シーンなど)を精神的に探索し、想像上の観察を取得し、その信念を更新するエゴセントリックな世界探索フレームワークである$\textit{Generative World Explorer (Genex)}$を紹介した。
この更新された信念は、エージェントが現在のステップでより深い決定を下すのに役立つ。
$\textit{Genex}$をトレーニングするために、合成都市シーンデータセット、Genex-DBを作成します。
実験の結果,(1)$\textit{Genex}$は,大規模仮想空間の長期探査において高品質で一貫した観察を生成でき,(2)生成した観察で更新された信念は,既存の意思決定モデル(例えば LLM エージェント)により良い計画を立てることができることがわかった。
関連論文リスト
- DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している
本調査では,世界モデルの最新動向を包括的に調査する。
我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-05-06T14:37:07Z) - V-IRL: Grounding Virtual Intelligence in Real Life [65.87750250364411]
V-IRLは、エージェントが仮想的で現実的な環境で現実世界と対話することを可能にするプラットフォームである。
私たちのプラットフォームは、様々な実践的なタスクを達成できるエージェントを開発するための遊び場として役立ちます。
論文 参考訳(メタデータ) (2024-02-05T18:59:36Z) - Generative agents in the streets: Exploring the use of Large Language
Models (LLMs) in collecting urban perceptions [0.0]
本研究では,大規模言語モデル(LLM)を用いた生成エージェントの現況について検討する。
この実験では、都市環境と対話するための生成エージェントを用いて、ストリートビューイメージを使用して、特定の目標に向けて旅を計画する。
LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
論文 参考訳(メタデータ) (2023-12-20T15:45:54Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Neural World Models for Computer Vision [2.741266294612776]
深層ニューラルネットワークによってパラメータ化された世界モデルと政策をトレーニングするためのフレームワークを提案する。
我々は、幾何学、意味論、動きといった重要なコンピュータビジョンの概念を活用して、複雑な都市運転シーンに世界モデルを拡張する。
都会の運転環境における静的シーン, 動的シーン, エゴビヘイビアを共同で予測できる。
論文 参考訳(メタデータ) (2023-06-15T14:58:21Z) - The Seven Worlds and Experiences of the Wireless Metaverse: Challenges
and Opportunities [58.42198877478623]
ワイヤレスメタバースは、物理的、デジタル、仮想世界の交差点で多様なユーザー体験を生み出す。
我々は、メタバースを7つの世界と経験の交叉に蒸留する、無限の無線メタバースの全体像を提示する。
我々は、DTのエンドツーエンド同期の必要性と、認知アバターにおける人間レベルのAIと推論能力の役割を強調した。
論文 参考訳(メタデータ) (2023-04-20T13:04:52Z) - The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion
Planning Benchmark for Physically Realistic Embodied AI [96.86091264553613]
3Dワールドトランスポートチャレンジと呼ばれる視覚誘導と物理駆動のタスク・アンド・モーション計画ベンチマークを紹介します。
この課題では、シミュレーションされた実家環境において、2つの9-DOF関節アームを備えたエンボディエージェントをランダムに生成する。
エージェントは、家の周りに散在するオブジェクトの小さなセットを見つけ、それらをピックアップし、望ましい最終的な場所に輸送する必要があります。
論文 参考訳(メタデータ) (2021-03-25T17:59:08Z) - Active World Model Learning with Progress Curiosity [12.077052764803163]
世界モデルは、世界がどのように進化するかの自己監督的な予測モデルである。
本研究では,このような好奇心駆動型アクティブワールドモデル学習システムの設計方法について検討する。
我々は、スケーラブルで効果的な学習進捗に基づく好奇心信号である$gamma$-Progressによって駆動されるAWMLシステムを提案する。
論文 参考訳(メタデータ) (2020-07-15T17:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。