論文の概要: GenRL: Multimodal-foundation world models for generalization in embodied agents
- arxiv url: http://arxiv.org/abs/2406.18043v2
- Date: Wed, 30 Oct 2024 20:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:09.759964
- Title: GenRL: Multimodal-foundation world models for generalization in embodied agents
- Title(参考訳): GenRL: エンボディエージェントの一般化のためのマルチモーダル境界世界モデル
- Authors: Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Aaron Courville, Sai Rajeswar,
- Abstract要約: 強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。
このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
- 参考スコア(独自算出の注目度): 12.263162194821787
- License:
- Abstract: Learning generalist embodied agents, able to solve multitudes of tasks in different domains is a long-standing problem. Reinforcement learning (RL) is hard to scale up as it requires a complex reward design for each task. In contrast, language can specify tasks in a more natural way. Current foundation vision-language models (VLMs) generally require fine-tuning or other adaptations to be adopted in embodied contexts, due to the significant domain gap. However, the lack of multimodal data in such domains represents an obstacle to developing foundation models for embodied applications. In this work, we overcome these problems by presenting multimodal-foundation world models, able to connect and align the representation of foundation VLMs with the latent space of generative world models for RL, without any language annotations. The resulting agent learning framework, GenRL, allows one to specify tasks through vision and/or language prompts, ground them in the embodied domain's dynamics, and learn the corresponding behaviors in imagination. As assessed through large-scale multi-task benchmarking in locomotion and manipulation domains, GenRL enables multi-task generalization from language and visual prompts. Furthermore, by introducing a data-free policy learning strategy, our approach lays the groundwork for foundational policy learning using generative world models. Website, code and data: https://mazpie.github.io/genrl/
- Abstract(参考訳): さまざまな領域におけるタスクの多タスクを解決できる汎用的なエージェントを学習することは、長年の課題である。
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
対照的に、言語はより自然な方法でタスクを指定できる。
現在の基盤視覚言語モデル(VLM)は、ドメインギャップが大きいため、一般的には微調整やその他の適応を具体的文脈で採用する必要がある。
しかし、そのような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害となる。
本研究では,言語アノテーションを使わずに,基礎VLMの表現とRL生成世界モデルの潜在空間を接続・整合できるマルチモーダル境界世界モデルを提案することで,これらの問題を克服する。
結果として得られるエージェント学習フレームワークであるGenRLは、視覚および/または言語プロンプトを通じてタスクを指定し、それを具現化されたドメインのダイナミクスに基盤にして、想像力で対応する振る舞いを学ぶことができる。
ローコモーションと操作領域における大規模マルチタスクベンチマークによって評価されるように、GenRLは言語や視覚的プロンプトからマルチタスクの一般化を可能にする。
さらに,データフリーな政策学習戦略を導入することで,生成的世界モデルを用いた基本的政策学習の基盤となる。
Webサイト、コード、データ:https://mazpie.github.io/genrl/
関連論文リスト
- Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks [6.731844884087068]
本稿では、ドメイン一般化のためのVolDoGer: Vision-Languageデータセットを提案する。
このデータセットは、画像キャプション、視覚的質問応答、視覚的内容の3つの視覚言語タスクに対処する。
我々は、LLMベースのデータアノテーション技術を視覚言語タスクに拡張し、人間のアノテータを募集する際の負担を軽減する。
論文 参考訳(メタデータ) (2024-07-29T08:38:46Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - GroundingGPT:Language Enhanced Multi-modal Grounding Model [15.44099961048236]
言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。
提案モデルでは,入力中の局所情報の詳細な理解を求めるタスクを抽出する。
ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。
論文 参考訳(メタデータ) (2024-01-11T17:41:57Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - On the cross-lingual transferability of multilingual prototypical models
across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。
実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。
本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文 参考訳(メタデータ) (2022-07-19T09:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。