論文の概要: ComboBench: Can LLMs Manipulate Physical Devices to Play Virtual Reality Games?
- arxiv url: http://arxiv.org/abs/2510.24706v1
- Date: Tue, 28 Oct 2025 17:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.331653
- Title: ComboBench: Can LLMs Manipulate Physical Devices to Play Virtual Reality Games?
- Title(参考訳): ComboBench: LLMは物理デバイスを操作できるのか?
- Authors: Shuqing Li, Jiayi Yan, Chenyu Niu, Jen-tse Huang, Yun Peng, Wenxuan Wang, Yepang Liu, Michael R. Lyu,
- Abstract要約: 本稿では,VRデバイス操作シーケンスにセマンティックアクションを変換する大規模言語モデルの性能を評価するベンチマークComboBenchを紹介する。
GPT-3.5, GPT-4, GPT-4o, Gemini-1.5-Pro, LLaMA-3-8B, Mixtral-8x7B, GLM-4-Flashの7つのLCMを, 注釈付き地上真実と人的性能と比較した。
Gemini-1.5-Proのようなトップパフォーマンスモデルでは,強いタスク分解能力を示す一方で,手続き的推論や空間的理解に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 38.7176263925078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual Reality (VR) games require players to translate high-level semantic actions into precise device manipulations using controllers and head-mounted displays (HMDs). While humans intuitively perform this translation based on common sense and embodied understanding, whether Large Language Models (LLMs) can effectively replicate this ability remains underexplored. This paper introduces a benchmark, ComboBench, evaluating LLMs' capability to translate semantic actions into VR device manipulation sequences across 262 scenarios from four popular VR games: Half-Life: Alyx, Into the Radius, Moss: Book II, and Vivecraft. We evaluate seven LLMs, including GPT-3.5, GPT-4, GPT-4o, Gemini-1.5-Pro, LLaMA-3-8B, Mixtral-8x7B, and GLM-4-Flash, compared against annotated ground truth and human performance. Our results reveal that while top-performing models like Gemini-1.5-Pro demonstrate strong task decomposition capabilities, they still struggle with procedural reasoning and spatial understanding compared to humans. Performance varies significantly across games, suggesting sensitivity to interaction complexity. Few-shot examples substantially improve performance, indicating potential for targeted enhancement of LLMs' VR manipulation capabilities. We release all materials at https://sites.google.com/view/combobench.
- Abstract(参考訳): バーチャルリアリティ(VR)ゲームでは、コントローラーとヘッドマウントディスプレイ(HMD)を使用して高レベルのセマンティックアクションを正確なデバイス操作に変換する必要がある。
人間はこの翻訳を常識と具体的理解に基づいて直感的に行うが、Large Language Models (LLMs) が効果的にこの能力を再現できるかどうかは未解明のままである。
本稿では,4つのVRゲーム(Half-Life: Alyx, Into the Radius, Moss: Book II, Vivecraft)の262シナリオにおいて,セマンティックアクションをVRデバイス操作シーケンスに変換する能力の評価を行うComboBenchベンチマークを紹介する。
GPT-3.5, GPT-4, GPT-4o, Gemini-1.5-Pro, LLaMA-3-8B, Mixtral-8x7B, GLM-4-Flashの7つのLCMを, 注釈付き地上真実と人的性能と比較した。
Gemini-1.5-Proのようなトップパフォーマンスモデルは、強いタスク分解能力を示すが、人間に比べて手続き的推論や空間的理解に苦慮している。
パフォーマンスはゲームによって大きく異なり、インタラクションの複雑さに対する感受性が示唆される。
LLMのVR操作能力を目標に拡張する可能性を示している。
すべての資料はhttps://sites.google.com/view/combobench.comで公開しています。
関連論文リスト
- Can Large Language Models Master Complex Card Games? [18.39826127562161]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示した。
高品質なデータを教師付き微調整することで,LLMが強力なゲームAIの性能にアプローチ可能であることを示す。
LLMは複雑なゲームをマスターする際の一般的な能力の低下を経験するが、この低下をある程度の一般的な命令データを統合することで軽減することができる。
論文 参考訳(メタデータ) (2025-09-01T10:11:56Z) - Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces [90.96731971685115]
VeBrainは、現実世界における認識、推論、制御のための統一されたフレームワークである。
VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成する。
VeBrainは、既存の方法と比較して、強い適応性、柔軟性、および構成能力を示している。
論文 参考訳(メタデータ) (2025-05-30T18:00:34Z) - VideoGameBench: Can Vision-Language Models complete popular video games? [8.5302862604852]
ビデオゲームは、人間が自然に帰納的バイアスを生かして学習し、習得するために直感的に作られている。
1990年代にVLMが直接リアルタイムに対話する人気ゲーム10種からなるベンチマークであるVideoGameBenchを紹介する。
その結果,フロンティア・ビジョン言語モデルは,ゲーム開始以降の進行に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-23T17:43:27Z) - lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。
我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (2025-05-21T06:02:55Z) - Can You Move These Over There? An LLM-based VR Mover for Supporting Object Manipulation [12.569646616546235]
LLMを利用したVR Moverを提案する。これは、オブジェクト操作をサポートするユーザの声道指示を理解し、解釈できるソリューションである。
ユーザ調査の結果,VR Moverはユーザビリティ,ユーザエクスペリエンス,マルチオブジェクト操作におけるパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-02-04T10:27:40Z) - The Trail Making Test in Virtual Reality (TMT-VR): The Effects of Interaction Modes and Gaming Skills on Cognitive Performance of Young Adults [0.7916635054977068]
本研究は,VRにおけるトレイルメイキングテスト(TMT-VR)の開発と評価である。
異なるインタラクションモードとゲームスキルが認知能力に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-10-30T22:06:14Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - QuestSim: Human Motion Tracking from Sparse Sensors with Simulated
Avatars [80.05743236282564]
人間の身体の動きのリアルタイム追跡は、AR/VRにおける没入感のある体験に不可欠である。
本稿では,HMDと2つのコントローラから疎信号を取り出す強化学習フレームワークを提案する。
一つのポリシーは、多様な移動スタイル、異なる体の大きさ、新しい環境に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:25:54Z) - Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual
Reality [68.18446501943585]
ソーシャルな存在は、バーチャルリアリティー(VR)におけるデジタル人間による次世代コミュニケーションシステムを支える
最高の3DビデオリアルVRアバターは、人固有の(PS)モデルに依存します。
本稿では,エンドツーエンドのマルチアイデンティティアーキテクチャを提案することで,これらの制限を克服する。
論文 参考訳(メタデータ) (2021-04-10T15:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。