論文の概要: VirtualEnv: A Platform for Embodied AI Research
- arxiv url: http://arxiv.org/abs/2601.07553v1
- Date: Mon, 12 Jan 2026 14:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.424497
- Title: VirtualEnv: A Platform for Embodied AI Research
- Title(参考訳): VirtualEnv: 体操AI研究のためのプラットフォーム
- Authors: Kabir Swain, Sijie Han, Ayush Raina, Jin Zhang, Shuang Li, Michael Stopa, Antonio Torralba,
- Abstract要約: Unreal Engine 5上に構築された次世代シミュレーションプラットフォームであるVirtualEnvを紹介します。
具体的でインタラクティブなシナリオにおいて、大きな言語モデル(LLM)のきめ細かいベンチマークを可能にする。
私たちはUnreal Engine上に構築されたユーザフレンドリなAPIを提供しており、研究者はLLM駆動エージェントをデプロイし、制御することができます。
- 参考スコア(独自算出の注目度): 26.527818430035534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to improve in reasoning and decision-making, there is a growing need for realistic and interactive environments where their abilities can be rigorously evaluated. We present VirtualEnv, a next-generation simulation platform built on Unreal Engine 5 that enables fine-grained benchmarking of LLMs in embodied and interactive scenarios. VirtualEnv supports rich agent-environment interactions, including object manipulation, navigation, and adaptive multi-agent collaboration, as well as game-inspired mechanics like escape rooms and procedurally generated environments. We provide a user-friendly API built on top of Unreal Engine, allowing researchers to deploy and control LLM-driven agents using natural language instructions. We integrate large-scale LLMs and vision-language models (VLMs), such as GPT-based models, to generate novel environments and structured tasks from multimodal inputs. Our experiments benchmark the performance of several popular LLMs across tasks of increasing complexity, analyzing differences in adaptability, planning, and multi-agent coordination. We also describe our methodology for procedural task generation, task validation, and real-time environment control. VirtualEnv is released as an open-source platform, we aim to advance research at the intersection of AI and gaming, enable standardized evaluation of LLMs in embodied AI settings, and pave the way for future developments in immersive simulations and interactive entertainment.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論と意思決定の改善を続けており、現実的でインタラクティブな環境の必要性が高まっている。
我々は,Unreal Engine 5上に構築された次世代シミュレーションプラットフォームであるVirtualEnvを紹介した。
VirtualEnvは、オブジェクト操作、ナビゲーション、適応的なマルチエージェントコラボレーションを含むリッチなエージェント環境インタラクションと、エスケープルームや手続き的に生成された環境のようなゲームにインスパイアされたメカニズムをサポートする。
我々はUnreal Engine上に構築されたユーザフレンドリなAPIを提供し、研究者は自然言語命令を使用してLLM駆動エージェントをデプロイし、制御することができる。
我々はGPTモデルのような大規模LCMと視覚言語モデル(VLM)を統合し、マルチモーダル入力から新しい環境と構造化タスクを生成する。
本実験は, 複雑化, 適応性, 計画, マルチエージェント調整の相違を解析するタスクにまたがって, 人気のLCMの性能をベンチマークした。
また、手続き的タスク生成、タスク検証、リアルタイム環境制御のための方法論についても述べる。
VirtualEnvはオープンソースプラットフォームとしてリリースされ、AIとゲームの交差点での研究を進め、具体化されたAI設定におけるLLMの標準化評価を可能にし、没入型シミュレーションとインタラクティブエンターテイメントにおける将来の発展への道を開くことを目指している。
関連論文リスト
- EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis [101.67583081810136]
大規模言語モデル(LLM)は、様々な現実世界環境においてエージェントとして機能するよう訓練されることが期待されている。
このプロセスはリッチで多様なツール・インタラクション・サンドボックスに依存している。
スケーラブルなツールインタラクション環境のための自動化フレームワークであるEnvScalerを提案する。
論文 参考訳(メタデータ) (2026-01-09T14:32:06Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Visual Language Models as Operator Agents in the Space Domain [36.943670587532026]
VLM(Vision-Language Models)は、宇宙ミッションにおける自律的な制御と意思決定を強化する。
ソフトウェア環境では、複雑な軌道操作を行うために、VLMを用いてグラフィカルユーザインタフェースの視覚的なスクリーンショットを解釈する。
ハードウェアの分野では、衛星などの物理空間オブジェクトを検査・診断するためのカメラを備えたロボットシステムとVLMを統合する。
論文 参考訳(メタデータ) (2025-01-14T03:03:37Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。