論文の概要: FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making
- arxiv url: http://arxiv.org/abs/2507.12496v1
- Date: Tue, 15 Jul 2025 21:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.211005
- Title: FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making
- Title(参考訳): FOUNDER:オープンエンド型身体決定のための世界モデルにおける接地基盤モデル
- Authors: Yucen Wang, Rui Yu, Shenghua Wan, Le Gan, De-Chuan Zhan,
- Abstract要約: ファンデーションモデル(FM)とワールドモデル(WM)は、異なるレベルでタスクの一般化において補完的な強みを提供する。
本稿では、FMに埋め込まれた一般化可能な知識とWMの動的モデリング機能を統合するフレームワークであるFOUNDERを提案する。
我々は、WM状態空間におけるFM表現を基底としたマッピング関数を学習し、外部観測から世界シミュレータにおけるエージェントの物理状態を効果的に推定する。
- 参考スコア(独自算出の注目度): 32.050134958163184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation Models (FMs) and World Models (WMs) offer complementary strengths in task generalization at different levels. In this work, we propose FOUNDER, a framework that integrates the generalizable knowledge embedded in FMs with the dynamic modeling capabilities of WMs to enable open-ended task solving in embodied environments in a reward-free manner. We learn a mapping function that grounds FM representations in the WM state space, effectively inferring the agent's physical states in the world simulator from external observations. This mapping enables the learning of a goal-conditioned policy through imagination during behavior learning, with the mapped task serving as the goal state. Our method leverages the predicted temporal distance to the goal state as an informative reward signal. FOUNDER demonstrates superior performance on various multi-task offline visual control benchmarks, excelling in capturing the deep-level semantics of tasks specified by text or videos, particularly in scenarios involving complex observations or domain gaps where prior methods struggle. The consistency of our learned reward function with the ground-truth reward is also empirically validated. Our project website is https://sites.google.com/view/founder-rl.
- Abstract(参考訳): ファンデーションモデル(FM)とワールドモデル(WM)は、異なるレベルでタスクの一般化において補完的な強みを提供する。
本研究では,FMに埋め込まれた一般化可能な知識とWMの動的モデリング機能を統合するフレームワークであるFOUNDERを提案する。
我々は、WM状態空間におけるFM表現を基底とするマッピング関数を学習し、外部観測から世界シミュレータにおけるエージェントの物理状態を効果的に推定する。
このマッピングにより、行動学習中の想像を通じてゴール条件付きポリシーを学習することができ、マップされたタスクがゴール状態として機能する。
提案手法は,予測時間から目標状態までの距離を報知報酬信号として活用する。
FOUNDERは、様々なマルチタスクのオフラインビジュアルコントロールベンチマークで優れたパフォーマンスを示し、テキストやビデオによって指定されたタスクの深い意味を、特に先行メソッドが苦労する複雑な観察やドメインギャップを含むシナリオで捉えるのに優れています。
学習した報酬関数と地道報酬との整合性も実証的に検証される。
プロジェクトのWebサイトはhttps://sites.google.com/view/founder-rlです。
関連論文リスト
- Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。
我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。
この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-12T18:57:22Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - World Value Functions: Knowledge Representation for Learning and
Planning [14.731788603429774]
本稿では、ゴール指向の一般値関数の一種である世界値関数(WVF)を提案する。
WVFは、与えられたタスクだけでなく、エージェントの環境における他の目標達成タスクの解決方法を表す。
WVFは通常の値関数よりも高速に学習でき、環境のダイナミクスを推測する能力は学習と計画の手法の統合に利用できることを示す。
論文 参考訳(メタデータ) (2022-06-23T18:49:54Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Estimating Disentangled Belief about Hidden State and Hidden Task for
Meta-RL [27.78147889149745]
メタ強化学習(メタRL)アルゴリズムにより、自律エージェントは少量の経験から新しいタスクを適応できます。
meta-rlでは、現在のタスクの仕様(報酬関数など)がエージェントから隠されている。
タスクと状態に対する偏りのある信念を推定し、タスクと状態が各タスクのグローバルおよびローカルの特徴とみなすことができるという帰納バイアスを活用します。
論文 参考訳(メタデータ) (2021-05-14T06:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。