論文の概要: SIMA 2: A Generalist Embodied Agent for Virtual Worlds
- arxiv url: http://arxiv.org/abs/2512.04797v1
- Date: Thu, 04 Dec 2025 13:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.190066
- Title: SIMA 2: A Generalist Embodied Agent for Virtual Worlds
- Title(参考訳): SIMA 2: 仮想世界のための汎用的エンボディードエージェント
- Authors: SIMA team, Adrian Bolton, Alexander Lerchner, Alexandra Cordell, Alexandre Moufarek, Andrew Bolt, Andrew Lampinen, Anna Mitenkova, Arne Olav Hallingstad, Bojan Vujatovic, Bonnie Li, Cong Lu, Daan Wierstra, Daniel P. Sawyer, Daniel Slater, David Reichert, Davide Vercelli, Demis Hassabis, Drew A. Hudson, Duncan Williams, Ed Hirst, Fabio Pardo, Felix Hill, Frederic Besse, Hannah Openshaw, Harris Chan, Hubert Soyer, Jane X. Wang, Jeff Clune, John Agapiou, John Reid, Joseph Marino, Junkyung Kim, Karol Gregor, Kaustubh Sridhar, Kay McKinney, Laura Kampis, Lei M. Zhang, Loic Matthey, Luyu Wang, Maria Abi Raad, Maria Loks-Thompson, Martin Engelcke, Matija Kecman, Matthew Jackson, Maxime Gazeau, Ollie Purkiss, Oscar Knagg, Peter Stys, Piermaria Mendolicchio, Raia Hadsell, Rosemary Ke, Ryan Faulkner, Sarah Chakera, Satinder Singh Baveja, Shane Legg, Sheleem Kashem, Tayfun Terzi, Thomas Keck, Tim Harley, Tim Scholtes, Tyson Roberts, Volodymyr Mnih, Yulan Liu, Zhengdong Wang, Zoubin Ghahramani,
- Abstract要約: 本稿では,多種多様な3次元仮想世界における動作を理解する汎用的なエンボディエージェントSIMA 2を紹介する。
Geminiファウンデーションモデルに基づいて構築されたSIMA 2は、アクティブでゴール指向のインタラクションに向けた重要なステップである。
- 参考スコア(独自算出の注目度): 87.15489342016714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SIMA 2, a generalist embodied agent that understands and acts in a wide variety of 3D virtual worlds. Built upon a Gemini foundation model, SIMA 2 represents a significant step toward active, goal-directed interaction within an embodied environment. Unlike prior work (e.g., SIMA 1) limited to simple language commands, SIMA 2 acts as an interactive partner, capable of reasoning about high-level goals, conversing with the user, and handling complex instructions given through language and images. Across a diverse portfolio of games, SIMA 2 substantially closes the gap with human performance and demonstrates robust generalization to previously unseen environments, all while retaining the base model's core reasoning capabilities. Furthermore, we demonstrate a capacity for open-ended self-improvement: by leveraging Gemini to generate tasks and provide rewards, SIMA 2 can autonomously learn new skills from scratch in a new environment. This work validates a path toward creating versatile and continuously learning agents for both virtual and, eventually, physical worlds.
- Abstract(参考訳): 本稿では,多種多様な3次元仮想世界における動作を理解する汎用的なエンボディエージェントSIMA 2を紹介する。
Geminiファウンデーションモデルに基づいて構築されたSIMA 2は、エンボディ環境でのアクティブでゴール指向のインタラクションに向けた重要なステップである。
単純な言語コマンドに限定された以前の作業(例:SIMA 1)とは異なり、SIMA 2は対話的なパートナとして機能し、ハイレベルな目標を推論し、ユーザと会話し、言語やイメージを通じて与えられた複雑な命令を処理することができる。
SIMA 2は多種多様なゲームのポートフォリオにまたがって、人間のパフォーマンスとのギャップを大幅に埋め、ベースモデルのコア推論能力を保ちながら、以前は目に見えない環境への堅牢な一般化を実証している。
さらに,Geminiを活用してタスクを生成し,報奨を与えることにより,SIMA 2は新たな環境において,スクラッチから新たなスキルを自律的に学習することができる,オープンエンドの自己改善能力を示す。
この研究は、仮想世界と、最終的には物理的世界の両方のために、多目的で継続的な学習エージェントを作るための道筋を検証する。
関連論文リスト
- SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds [31.504258822495768]
我々は,AIエージェントの開発と評価を目的とした,Unreal Engine 5上に構築された新しいシミュレータであるSimWorldを紹介する。
SimWorldはリアルでオープンな世界シミュレーションを提供する。
戦略的協力と競争を含む長期マルチエージェント配信タスクにLLMエージェントを配置することで、SimWorldを実証する。
論文 参考訳(メタデータ) (2025-11-30T20:58:13Z) - Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。