論文の概要: Magma: A Foundation Model for Multimodal AI Agents
- arxiv url: http://arxiv.org/abs/2502.13130v1
- Date: Tue, 18 Feb 2025 18:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:09.138221
- Title: Magma: A Foundation Model for Multimodal AI Agents
- Title(参考訳): Magma: マルチモーダルAIエージェントの基礎モデル
- Authors: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao,
- Abstract要約: Magmaは、デジタルと物理の両方の世界でマルチモーダルAIエージェントタスクを提供する基盤モデルである。
エージェント機能を実現するために、Magmaは画像、ビデオ、ロボットデータなど、多種多様なデータセットを事前訓練している。
- 参考スコア(独自算出の注目度): 85.53847140774839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Magma, a foundation model that serves multimodal AI agentic tasks in both the digital and physical worlds. Magma is a significant extension of vision-language (VL) models in that it not only retains the VL understanding ability (verbal intelligence) of the latter, but is also equipped with the ability to plan and act in the visual-spatial world (spatial-temporal intelligence) and complete agentic tasks ranging from UI navigation to robot manipulation. To endow the agentic capabilities, Magma is pretrained on large amounts of heterogeneous datasets spanning from images, videos to robotics data, where the actionable visual objects (e.g., clickable buttons in GUI) in images are labeled by Set-of-Mark (SoM) for action grounding, and the object movements (e.g., the trace of human hands or robotic arms) in videos are labeled by Trace-of-Mark (ToM) for action planning. Extensive experiments show that SoM and ToM reach great synergy and facilitate the acquisition of spatial-temporal intelligence for our Magma model, which is fundamental to a wide range of tasks as shown in Fig.1. In particular, Magma creates new state-of-the-art results on UI navigation and robotic manipulation tasks, outperforming previous models that are specifically tailored to these tasks. On image and video-related multimodal tasks, Magma also compares favorably to popular large multimodal models that are trained on much larger datasets. We make our model and code public for reproducibility at https://microsoft.github.io/Magma.
- Abstract(参考訳): 我々は、デジタルと物理の両方の世界でマルチモーダルAIエージェントタスクを提供する基礎モデルMagmaを紹介する。
Magmaは視覚言語(VL)モデルの大幅な拡張であり、後者のVL理解能力(言語知能)を保持するだけでなく、視覚空間の世界(時空間知能)における計画と行動の能力や、UIナビゲーションからロボット操作まで、完全なエージェントタスクも備えている。
エージェント機能を実現するために、Magmaは画像、ビデオ、ロボットデータなど多種多様なデータセットを事前訓練し、画像内の実行可能な視覚オブジェクト(例えば、GUIのクリック可能なボタン)をアクショングラウンド用のSet-of-Mark(SoM)にラベル付けし、ビデオ内のオブジェクトの動き(例えば、人間の手やロボットアームの痕跡)をアクションプランニング用のTrace-of-Mark(ToM)にラベル付けする。
大規模な実験により、SoMとToMは大きなシナジーに達し、Magmaモデルに対する時空間知能の獲得を促進することが示され、これは図1に示すように、幅広いタスクに基礎を置いている。
特にMagmaは、UIナビゲーションとロボット操作タスクに関する最新の結果を作成し、これらのタスクに特化している従来のモデルよりも優れている。
画像およびビデオ関連のマルチモーダルタスクに関して、Magmaは、はるかに大きなデータセットでトレーニングされた一般的な大規模マルチモーダルモデルと好意的に比較する。
当社のモデルとコードをhttps://microsoft.github.io/Magma.comで公開しています。
関連論文リスト
- Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills [31.788094786664324]
現実の具体的タスクにおいて人間レベルのパフォーマンスを達成することができる自律ロボットエージェントを構築することは、ヒューマノイドロボット研究の究極の目標である。
近年の進歩は、ファンデーションモデル(FM)によるハイレベル認知と、ヒューマノイドロボットの低レベルスキル開発に大きな進歩をもたらした。
本稿では,FMとモジュール型スキルライブラリを統合する階層型エージェントフレームワークであるBeat-0を紹介する。
being-0は、器用な手とアクティブなビジョンを備えたフルサイズのヒューマノイドロボット上で、効率的でリアルタイムなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-16T14:53:53Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
本モデルでは,既存のMLLMよりも21.61%,さらに大きな70Bモデルよりもはるかに優れたマルチイメージグラウンド機能を実現している。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining [28.504762473732296]
本稿では,タスク非依存のビジュモータトラジェクトリから学習するトランスフォーマーに基づくアーキテクチャを提案する。
特に、コンプレックスのトランスフォーマーにおける相対的な位置エンコーディングを使用することは、人間が編集したデモから学習する低データ体制において大いに役立ちます。
論文 参考訳(メタデータ) (2023-03-15T17:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。