論文の概要: Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
- arxiv url: http://arxiv.org/abs/2511.08892v1
- Date: Thu, 13 Nov 2025 01:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.283314
- Title: Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
- Title(参考訳): Lumine:3Dオープンワールドにおけるジェネラリストエージェント構築のためのオープンレシピ
- Authors: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi,
- Abstract要約: Lumineは5時間のMondstadtメインストーリーラインを、人間レベルの効率と同等に仕上げている。
ワザリング・ウェーブズで100分間のミッションを遂行し、本海第1章『スターレール』全5時間で完結する。
- 参考スコア(独自算出の注目度): 31.10509974702641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.
- Abstract(参考訳): 我々は、Luminを紹介します。これは、3Dオープンワールド環境において、数時間の複雑なミッションをリアルタイムで完了できるジェネリストエージェントを開発するための最初のオープンレシピです。
ルミンは、視覚言語モデルによって、知覚、推論、行動をエンドツーエンドに統一する人間のような相互作用パラダイムを採用する。
生のピクセルを5Hzで処理し、正確に30Hzのキーボードマウスアクションを生成し、必要なときにのみ推論を適応的に実行します。
Genshin ImpactでトレーニングされたLumineは、人間レベルの効率と同等の5時間のMondstadtメインストーリーラインを完了し、自然言語命令に従って3Dオープンワールド探索と2D GUI操作の両方で幅広いタスクを実行する。
ドメイン内のパフォーマンスに加えて、Luminは強力なゼロショットクロスゲーム一般化を示す。
微調整なしでは、Wuthering Wavesでの100分間のミッションと、本海第1章『スターレール』全5時間分を達成できる。
これらの有望な結果は、異なる世界と相互作用のダイナミクスにおけるルミンの有効性を強調し、オープンエンド環境におけるジェネラリストエージェントへの具体的な一歩を示している。
関連論文リスト
- Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - NeoWorld: Neural Simulation of Explorable Virtual Worlds via Progressive 3D Unfolding [46.79724166827757]
単一入力画像からインタラクティブな3D仮想世界を生成するためのフレームワークであるNeoWorldを紹介する。
SF小説『Simulacron-3』(1964年)のオンデマンド・ワールドビルディングの概念に触発され、我々のシステムは広大な環境を構築する。
論文 参考訳(メタデータ) (2025-09-29T08:24:28Z) - OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model [22.545267010077822]
オープンワールドHOI合成のための最初のフレームワークであるOpenHOIを紹介する。
本手法では,3次元マルチモーダル大規模言語モデル(MLLM)を統合して,協調的アベイランスグラウンドと意味的タスクの分解を行う。
物理的にもっともらしい相互作用を合成するために, トレーニング不要な物理リファインメント段階と組み合わせたアベイランス駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-05-25T02:48:43Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - LARP: Language-Agent Role Play for Open-World Games [19.80040627487576]
Language Agent for Role-Playing (LARP)は、メモリ処理と意思決定アシスタントを含む認知アーキテクチャである。
このフレームワークは、ユーザとエージェント間のインタラクションを洗練し、ユニークなバックグラウンドとパーソナリティで事前に定義する。
エンターテイメント、教育、様々なシミュレーションシナリオなど、さまざまな分野における言語モデルの多彩な利用を強調している。
論文 参考訳(メタデータ) (2023-12-24T10:08:59Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。