論文の概要: CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games
- arxiv url: http://arxiv.org/abs/2503.09527v1
- Date: Wed, 12 Mar 2025 16:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:06.327428
- Title: CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games
- Title(参考訳): CombatVLA:3Dアクションロールプレイングゲームにおけるマルチタスクの効率的なビジョン・ランゲージ・アクションモデル
- Authors: Peng Chen, Pi Bu, Yingyao Wang, Xinyi Wang, Ziming Wang, Jie Guo, Yingxiu Zhao, Qi Zhu, Jun Song, Siran Yang, Jiamang Wang, Bo Zheng,
- Abstract要約: 我々は3Dアクションロールプレイングゲーム(ARPG)における戦闘タスクに最適化された効率的なVLAモデルであるCombatVLAを紹介する。
具体的には、当社のCombatVLAはアクショントラッカーによって収集されたビデオアクションペアに基づいてトレーニングされた3Bモデルです。
実験結果から,CombatVLAは戦闘理解ベンチマークにおいて既存のモデルを全て上回るだけでなく,戦闘における50倍の加速も達成していることがわかった。
- 参考スコア(独自算出の注目度): 45.5522574590016
- License:
- Abstract: Recent advances in Vision-Language-Action models (VLAs) have expanded the capabilities of embodied intelligence. However, significant challenges remain in real-time decision-making in complex 3D environments, which demand second-level responses, high-resolution perception, and tactical reasoning under dynamic conditions. To advance the field, we introduce CombatVLA, an efficient VLA model optimized for combat tasks in 3D action role-playing games(ARPGs). Specifically, our CombatVLA is a 3B model trained on video-action pairs collected by an action tracker, where the data is formatted as action-of-thought (AoT) sequences. Thereafter, CombatVLA seamlessly integrates into an action execution framework, allowing efficient inference through our truncated AoT strategy. Experimental results demonstrate that CombatVLA not only outperforms all existing models on the combat understanding benchmark but also achieves a 50-fold acceleration in game combat. Moreover, it has a higher task success rate than human players. We will open-source all resources, including the action tracker, dataset, benchmark, model weights, training code, and the implementation of the framework at https://combatvla.github.io/.
- Abstract(参考訳): 近年のVision-Language-Action Model (VLA) は、インボディード・インテリジェンス(英語版)の能力を拡大している。
しかし、複雑な3D環境において、第2レベルの応答、高解像度の知覚、動的条件下での戦術的推論を必要とするリアルタイム意思決定において、重要な課題が残っている。
本稿では,3Dアクションロールプレイングゲーム(ARPG)における戦闘タスクに最適化された効率的なVLAモデルであるCombatVLAを紹介する。
具体的には、当社のCombatVLAはアクショントラッカーによって収集されたビデオアクションペアに基づいてトレーニングされた3Bモデルで、データはアクション・オブ・シークエンス(AoT)としてフォーマットされる。
その後、CombatVLAはシームレスにアクション実行フレームワークに統合され、切り捨てられたAoT戦略による効率的な推論を可能にします。
実験結果から,CombatVLAは戦闘理解ベンチマークにおいて既存のモデルを全て上回るだけでなく,戦闘における50倍の加速も達成していることがわかった。
さらに、人間のプレイヤーよりもタスクの成功率が高い。
アクショントラッカー、データセット、ベンチマーク、モデルウェイト、トレーニングコード、フレームワークの実装を含むすべてのリソースをhttps://combatvla.github.io/.comでオープンソース化します。
関連論文リスト
- 3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning [2.6670748466660523]
視覚言語モデル(VLM)はシーン理解と知覚タスクにおいて顕著な成功を収めた。
VLMにはロバストな3Dシーンのローカライズ機能がなく、ロボット操作の精度を制限している。
本稿では,2次元画像を点雲にマッピングすることで,2次元プロンプト合成モジュールを統合し,VLM出力を監視するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:40:19Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文 参考訳(メタデータ) (2024-10-02T09:02:34Z) - Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Learning a Weakly-Supervised Video Actor-Action Segmentation Model with
a Wise Selection [97.98805233539633]
弱教師付きビデオアクターアクションセグメンテーション(VAAS)について検討する。
トレーニングサンプルのワイズ選択とモデル評価基準(WS2)を併用した汎用弱弱化フレームワークを提案する。
WS2は、弱い教師付きVOSとVAASタスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-29T21:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。