論文の概要: TongSIM: A General Platform for Simulating Intelligent Machines
- arxiv url: http://arxiv.org/abs/2512.20206v1
- Date: Tue, 23 Dec 2025 10:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.820744
- Title: TongSIM: A General Platform for Simulating Intelligent Machines
- Title(参考訳): TongSIM: インテリジェントマシンをシミュレートするための汎用プラットフォーム
- Authors: Zhe Sun, Kunlun Wu, Chuanjian Fu, Zeming Song, Langyong Shi, Zihe Xue, Bohan Jing, Ying Yang, Xiaomeng Gao, Aijia Li, Tianyu Guo, Huiying Li, Xueyuan Yang, Rongkai Liu, Xinyi He, Yuxi Wang, Yue Li, Mingyuan Liu, Yujie Lu, Hongzhao Xie, Shiyun Zhao, Bo Dai, Wei Wang, Tao Yuan, Song-Chun Zhu, Yujia Peng, Zhenliang Zhang,
- Abstract要約: エボディード・インテリジェンス(Embodied Intelligence)は、現実的なシミュレートされた環境における訓練エージェントに焦点を当てる。
TongSIMは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームである。
- 参考スコア(独自算出の注目度): 59.27575233453533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As artificial intelligence (AI) rapidly advances, especially in multimodal large language models (MLLMs), research focus is shifting from single-modality text processing to the more complex domains of multimodal and embodied AI. Embodied intelligence focuses on training agents within realistic simulated environments, leveraging physical interaction and action feedback rather than conventionally labeled datasets. Yet, most existing simulation platforms remain narrowly designed, each tailored to specific tasks. A versatile, general-purpose training environment that can support everything from low-level embodied navigation to high-level composite activities, such as multi-agent social simulation and human-AI collaboration, remains largely unavailable. To bridge this gap, we introduce TongSIM, a high-fidelity, general-purpose platform for training and evaluating embodied agents. TongSIM offers practical advantages by providing over 100 diverse, multi-room indoor scenarios as well as an open-ended, interaction-rich outdoor town simulation, ensuring broad applicability across research needs. Its comprehensive evaluation framework and benchmarks enable precise assessment of agent capabilities, such as perception, cognition, decision-making, human-robot cooperation, and spatial and social reasoning. With features like customized scenes, task-adaptive fidelity, diverse agent types, and dynamic environmental simulation, TongSIM delivers flexibility and scalability for researchers, serving as a unified platform that accelerates training, evaluation, and advancement toward general embodied intelligence.
- Abstract(参考訳): 人工知能(AI)が急速に進歩し、特にマルチモーダル大言語モデル(MLLM)において、研究の焦点は、単一モーダルテキスト処理からより複雑なマルチモーダルおよびエンボディAI領域へとシフトしつつある。
エボディード・インテリジェンス(Embodied Intelligence)は、従来のラベル付きデータセットではなく、物理的なインタラクションとアクションフィードバックを活用する、現実的なシミュレートされた環境内のトレーニングエージェントに焦点を当てている。
しかし、既存のシミュレーションプラットフォームのほとんどは、それぞれが特定のタスクに合わせて、狭く設計されている。
マルチエージェント・ソーシャル・シミュレーションや人間とAIのコラボレーションなど,低レベルなエンボディナビゲーションから高レベルな複合活動まで,あらゆるものをサポートする汎用的な汎用的なトレーニング環境は,いまだほとんど利用できないままである。
このギャップを埋めるために、私たちは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームであるTongSIMを紹介します。
TongSIMは、100以上の多様なマルチルーム屋内シナリオと、オープンエンドで対話に富んだ屋外タウンシミュレーションを提供することで、研究ニーズにまたがる幅広い適用性を確保することで、実用的な利点を提供する。
その総合的な評価フレームワークとベンチマークは、認識、認知、意思決定、人間とロボットの協調、空間的および社会的推論などのエージェント能力の正確な評価を可能にする。
カスタマイズされたシーン、タスク適応フィデリティ、多様なエージェントタイプ、動的環境シミュレーションといった機能によって、TongSIMは研究者に柔軟性とスケーラビリティを提供し、トレーニング、評価、一般的なインボディードインテリジェンスへの進歩を加速する統一されたプラットフォームとして機能する。
関連論文リスト
- FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI [24.545163508739943]
FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。
我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。
再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
論文 参考訳(メタデータ) (2025-11-17T15:58:46Z) - Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - The Indispensable Role of User Simulation in the Pursuit of AGI [37.789218939871105]
現実的なシミュレータは、スケーラブルな評価、インタラクティブな学習のためのデータ生成、人工知能(AGI)を中心とした適応能力の育成に必要な環境を提供すると主張している。
本稿では,AGIにおけるユーザシミュレーションの重要な役割を詳述するとともに,現実的なシミュレータ構築の学際的性質を考察し,大規模言語モデルによる課題を含む重要な課題を特定し,今後の研究課題を提案する。
論文 参考訳(メタデータ) (2025-09-23T18:12:45Z) - Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - Simulation Agent: A Framework for Integrating Simulation and Large Language Models for Enhanced Decision-Making [0.7499722271664147]
大規模言語モデル(LLM)は直感的で言語ベースの相互作用を提供するが、複雑な実世界の力学を確実にモデル化するために必要な構造的、因果的理解が欠如している。
シミュレーションモデルとLLMの長所を統合する新しい手法であるシミュレーションエージェントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-19T22:27:18Z) - LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。
LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。
LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文 参考訳(メタデータ) (2024-12-12T12:47:09Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。