論文の概要: EmboMatrix: A Scalable Training-Ground for Embodied Decision-Making
- arxiv url: http://arxiv.org/abs/2510.12072v1
- Date: Tue, 14 Oct 2025 02:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.148376
- Title: EmboMatrix: A Scalable Training-Ground for Embodied Decision-Making
- Title(参考訳): EmboMatrix: Embodied Decision-Makingのためのスケーラブルなトレーニンググラウンド
- Authors: Zixing Lei, Sheng Yin, Yichen Xiong, Yuanzhuo Ding, Wenhao Huang, Yuxi Wei, Qingyao Xu, Yiming Li, Weixin Li, Yunhong Wang, Siheng Chen,
- Abstract要約: 身体的意思決定は、エージェントが物理世界における継続的な相互作用を通じて、高レベルの目標を実行可能なアクションに変換することを可能にする。
大きな言語モデル(LLM)とその一般的な意思決定能力は、この可能性を実現するための有望な道を提供する。
本稿では,タスクとシーンシミュレーション,具体的インタラクション,フィードバック信号を提供する総合的な基盤であるトレーニング場の概念を提案する。
- 参考スコア(独自算出の注目度): 60.15832211188291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied decision-making enables agents to translate high-level goals into executable actions through continuous interactions within the physical world, forming a cornerstone of general-purpose embodied intelligence. Large language models (LLMs), with their general decision-making capabilities, offer a promising path to realize this potential; however, LLMs trained solely on language lack exposure to physical environments, limiting their true embodied understanding. To bridge this gap, we propose the concept of a training ground: a comprehensive infrastructure that provides task and scene simulation, embodied interaction, and feedback signals, offering a one-stop solution for LLM acquire genuine embodied decision-making skills. In this work, we present EmboMatrix, the first training ground of its kind, providing massive and diverse tasks with efficient simulation and precise rewards. EmboMatrix incorporates a series of novel techniques: a multi-agent data engine for large-scale task and scene generation, a distributed heterogeneous-hardware system for scalable simulation, and a multi-level reward architecture for precise supervision. Leveraging EmboMatrix, we cultivate EmboBrain, an LLM whose embodied decision-making abilities emerge from extensive embodied interactions. Experiments show that EmboBrain-7B surpasses the 671B DeepSeek-R1 baseline by 9.5\% on two challenging embodied decision-making benchmarks, demonstrating the power of interactive, environment-grounded learning for building truly intelligent embodied agents.
- Abstract(参考訳): 身体的意思決定により、エージェントは物理的世界内の継続的な相互作用を通じて高レベルの目標を実行可能な行動に変換することができ、汎用的なインテリジェンスの基礎を形成します。
大きな言語モデル(LLM)は、その一般的な意思決定能力とともに、この可能性を実現するための有望な道を提供する。
このギャップを埋めるために、我々は、タスクとシーンシミュレーション、具体的相互作用、フィードバック信号を提供する総合的なインフラであるトレーニンググラウンドのコンセプトを提案し、LLMが真に具体化された意思決定スキルを得るためのワンストップソリューションを提供する。
本稿では,EmboMatrixについて紹介する。EmboMatrixは,多種多様なタスクを多種多様なタスクで効率的にシミュレーションし,正確な報酬を与える。
EmboMatrixには、大規模タスクとシーン生成のためのマルチエージェントデータエンジン、スケーラブルなシミュレーションのための分散異種ハードウェアシステム、精密な監視のためのマルチレベル報酬アーキテクチャなど、一連の新しい技術が含まれている。
EmboMatrixを活用することで、広範囲なインボディードインタラクションから、意思決定能力を具現化したLDMであるEmboBrainを培養する。
実験の結果、EmboBrain-7Bは671BのDeepSeek-R1ベースラインを9.5倍に超え、2つの挑戦的な具現化決定ベンチマークを上回り、真にインテリジェントなエージェントを構築するための対話的で環境に根ざした学習の力を実証した。
関連論文リスト
- BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。
我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。
BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。
我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:18:36Z) - Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文 参考訳(メタデータ) (2025-05-19T06:00:14Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill [25.686589649523587]
シミュレーションエージェントのオープンボキャブラリ物理スキルを学ぶことは、人工知能において重要な課題である。
我々は,手動工学やタスク固有の実演を使わずに,オープン語彙の物理スキル学習を可能にする汎用的な報酬フレームワークであるGROVEを紹介する。
シミュレーションと自然画像の領域ギャップを埋めるために,エージェントのポーズを直接意味的特徴空間に投影する軽量マッパーPose2CLIPを開発した。
論文 参考訳(メタデータ) (2025-04-05T14:44:47Z) - MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。
彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。
動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:05:38Z) - Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation [39.43049944895508]
Instruction-Augmented Long-Horizon Planning (IALP) システムを提案する。
その結果, IALPシステムでは, 平均成功率80%を超えるタスクを効率的に解けることがわかった。
論文 参考訳(メタデータ) (2025-03-11T06:37:33Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。