Fugu-MT 論文翻訳(概要): LEGENT: Open Platform for Embodied Agents

論文の概要: LEGENT: Open Platform for Embodied Agents

arxiv url: http://arxiv.org/abs/2404.18243v1
Date: Sun, 28 Apr 2024 16:50:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 15:25:56.924334
Title: LEGENT: Open Platform for Embodied Agents
Title（参考訳）: LEGENT: Embodied Agentsのオープンプラットフォーム
Authors: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun,
Abstract要約: LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。 LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
参考スコア（独自算出の注目度）: 60.71847900126832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.
Abstract（参考訳）: LLM(Large Language Models)とLMM(Large Multimodal Models)の進歩にもかかわらず、言語を基盤とした人間のようなエンボディエージェントへの統合は未完成のままであり、物理的環境における複雑な実環境タスクのパフォーマンスを妨げている。既存の統合はしばしば、この分野での集合的な進歩に挑戦する、限られたオープンソースを特徴としている。 LLMとLMMを用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームであるLEGENTを紹介する。 LEGENTは、リッチでインタラクティブな3D環境と、コミュニケーション可能でアクション可能なエージェント、ユーザフレンドリなインターフェースとの組み合わせ、高度なアルゴリズムを活用した高度なデータ生成パイプライン、という2つのアプローチを提供する。実験では, LEGENT生成データに基づいて学習した胚の視覚-言語-行動モデルが, 具体化タスクにおけるGPT-4Vを超越し, 有望な一般化能力を示す。

関連論文リスト

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文参考訳（メタデータ） (2025-04-14T17:59:25Z)
Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
強化学習を用いたマルチエージェントシステムでは, サンプル効率, 解釈可能性, 伝達性に課題が生じる。本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-14T13:23:18Z)
Large Action Models: From Inception to Implementation [51.81485642442344]
大規模アクションモデル(LAM)は動的環境内でのアクション生成と実行のために設計されている。 LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。創発から展開まで,LAMを体系的に開発するための総合的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-13T11:19:56Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality [28.27036270001756]
この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。
論文参考訳（メタデータ） (2024-05-16T14:20:30Z)
Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文参考訳（メタデータ） (2024-01-07T19:11:18Z)
Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。 LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文参考訳（メタデータ） (2023-10-20T03:22:05Z)
NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。 NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文参考訳（メタデータ） (2023-09-11T15:02:25Z)
Gentopia: A Collaborative Platform for Tool-Augmented LLMs [21.09079715807735]
簡単な構成でエージェントを柔軟にカスタマイズできる拡張言語モデル(ALM)フレームワークであるgentopiaを提案する。我々はまた、ユーザカスタマイズエージェントの登録と共有を可能にするパブリックプラットフォームであるgentpoolを構築した。ジェントプールの不可欠なコンポーネントであるgentbenchは、安全性、堅牢性、効率性など、さまざまな面でユーザカスタマイズエージェントを徹底的に評価するように設計されている。
論文参考訳（メタデータ） (2023-08-08T04:12:29Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。