論文の概要: LEGENT: Open Platform for Embodied Agents
- arxiv url: http://arxiv.org/abs/2404.18243v1
- Date: Sun, 28 Apr 2024 16:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:25:56.924334
- Title: LEGENT: Open Platform for Embodied Agents
- Title(参考訳): LEGENT: Embodied Agentsのオープンプラットフォーム
- Authors: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun,
- Abstract要約: LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
- 参考スコア(独自算出の注目度): 60.71847900126832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.
- Abstract(参考訳): LLM(Large Language Models)とLMM(Large Multimodal Models)の進歩にもかかわらず、言語を基盤とした人間のようなエンボディエージェントへの統合は未完成のままであり、物理的環境における複雑な実環境タスクのパフォーマンスを妨げている。
既存の統合はしばしば、この分野での集合的な進歩に挑戦する、限られたオープンソースを特徴としている。
LLMとLMMを用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームであるLEGENTを紹介する。
LEGENTは、リッチでインタラクティブな3D環境と、コミュニケーション可能でアクション可能なエージェント、ユーザフレンドリなインターフェースとの組み合わせ、高度なアルゴリズムを活用した高度なデータ生成パイプライン、という2つのアプローチを提供する。
実験では, LEGENT生成データに基づいて学習した胚の視覚-言語-行動モデルが, 具体化タスクにおけるGPT-4Vを超越し, 有望な一般化能力を示す。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality [28.27036270001756]
この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。
パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。
論文 参考訳(メタデータ) (2024-05-16T14:20:30Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。
LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。
我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文 参考訳(メタデータ) (2023-10-20T03:22:05Z) - NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - Gentopia: A Collaborative Platform for Tool-Augmented LLMs [21.09079715807735]
簡単な構成でエージェントを柔軟にカスタマイズできる拡張言語モデル(ALM)フレームワークであるgentopiaを提案する。
我々はまた、ユーザカスタマイズエージェントの登録と共有を可能にするパブリックプラットフォームであるgentpoolを構築した。
ジェントプールの不可欠なコンポーネントであるgentbenchは、安全性、堅牢性、効率性など、さまざまな面でユーザカスタマイズエージェントを徹底的に評価するように設計されている。
論文 参考訳(メタデータ) (2023-08-08T04:12:29Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。