論文の概要: From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
- arxiv url: http://arxiv.org/abs/2412.08442v1
- Date: Wed, 11 Dec 2024 15:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:38.909051
- Title: From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
- Title(参考訳): マルチモーダル LLM からジェネリスト・エンボディード・エージェントへ:方法と教訓
- Authors: Andrew Szot, Bogdan Mazoure, Omar Attia, Aleksei Timofeev, Harsh Agrawal, Devon Hjelm, Zhe Gan, Zsolt Kira, Alexander Toshev,
- Abstract要約: 一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
- 参考スコア(独自算出の注目度): 85.99268361356832
- License:
- Abstract: We examine the capability of Multimodal Large Language Models (MLLMs) to tackle diverse domains that extend beyond the traditional language and vision tasks these models are typically trained on. Specifically, our focus lies in areas such as Embodied AI, Games, UI Control, and Planning. To this end, we introduce a process of adapting an MLLM to a Generalist Embodied Agent (GEA). GEA is a single unified model capable of grounding itself across these varied domains through a multi-embodiment action tokenizer. GEA is trained with supervised learning on a large dataset of embodied experiences and with online RL in interactive simulators. We explore the data and algorithmic choices necessary to develop such a model. Our findings reveal the importance of training with cross-domain data and online RL for building generalist agents. The final GEA model achieves strong generalization performance to unseen tasks across diverse benchmarks compared to other generalist models and benchmark-specific approaches.
- Abstract(参考訳): 従来の言語や視覚的タスクを超越した多様なドメインに対処するためのMLLM(Multimodal Large Language Models)の能力について検討する。
具体的には、Embodied AI、ゲーム、UIコントロール、プランニングといった分野に重点を置いています。
そこで我々は,MLLMをジェネラル・エボダイド・エージェント(GEA)に適用するプロセスを紹介した。
GEAは、多体アクショントークンーザを通じて、これらの様々なドメインをまたがって自分自身をグラウンド化できる単一の統一モデルである。
GEAは、インボディードエクスペリエンスの大規模なデータセットに関する教師あり学習と、インタラクティブシミュレータにおけるオンラインRLでトレーニングされている。
このようなモデルを開発するために必要なデータとアルゴリズムの選択について検討する。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
最終的なGAAモデルは、他のジェネラリストモデルやベンチマーク固有のアプローチと比較して、多様なベンチマークにまたがる未確認タスクに対して、強力な一般化性能を達成する。
関連論文リスト
- LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [41.7426496795769]
オフラインメタRLの効率的な一般化を実現するメタ決定変換器(Meta-DT)を提案する。
我々は、コンテキスト認識の世界モデルを用いて、コンパクトなタスク表現を学習し、それをコンテキスト条件として注入し、タスク指向のシーケンス生成を誘導する。
また,Meta-DTでは,ベースラインが強いのに比べ,少ない,ゼロショットの一般化能力が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-15T09:51:30Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks [6.731844884087068]
本稿では、ドメイン一般化のためのVolDoGer: Vision-Languageデータセットを提案する。
このデータセットは、画像キャプション、視覚的質問応答、視覚的内容の3つの視覚言語タスクに対処する。
我々は、LLMベースのデータアノテーション技術を視覚言語タスクに拡張し、人間のアノテータを募集する際の負担を軽減する。
論文 参考訳(メタデータ) (2024-07-29T08:38:46Z) - GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。
このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文 参考訳(メタデータ) (2024-06-26T03:41:48Z) - Grounding Multimodal Large Language Models in Actions [65.88208317380793]
我々はMLLMを異なる実施形態とその関連する行動空間にベストグラウンドする方法について研究する。
連続的な動作に対しては、学習されたトークン化が十分なモデリング精度を実現することが示される。
離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-12T06:12:04Z) - SilverSight: A Multi-Task Chinese Financial Large Language Model Based on Adaptive Semantic Space Learning [4.540505713937026]
本研究では, 適応意味空間学習(ASSL)フレームワークを導入し, マルチエキスパートモデルの性能向上と選択効率の向上を図る。
研究結果から,本フレームワークはデータの10%に過ぎず,完全なデータトレーニングで得られた結果に近い結果が得られるとともに,強力な一般化能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-04-07T13:02:21Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Exploiting Style Transfer-based Task Augmentation for Cross-Domain
Few-Shot Learning [4.678020383205135]
ドメイン間の数ショット学習では、ソースドメインでトレーニングされたモデルは、ターゲットドメインへの一般化に苦労する。
本稿では,TAML(Task Augmented Meta-Learning)を提案する。
提案したTAMLは、トレーニングタスクのスタイルの多様性を高め、ドメインの一般化能力を向上したモデルのトレーニングに寄与する。
論文 参考訳(メタデータ) (2023-01-19T07:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。