論文の概要: Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.12937v1
- Date: Mon, 17 Nov 2025 03:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.643035
- Title: Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
- Title(参考訳): Yanyun-3:ビジョンランゲージモデルによるクロスプラットフォーム戦略ゲーム操作の実現
- Authors: Guoyan Wang, Yanyan Huang, Chunlin Chen, Lifeng Wang, Yuxiang Sun,
- Abstract要約: 本稿では,戦略ゲームにおける自律的クロスプラットフォーム操作を実現する汎用エージェントフレームワークYanyun-3を紹介する。
Qwen2.5-VLの視覚言語推論とUI-TARSの正確な実行能力を統合することで、Yanyun-3はコアタスクをうまく実行した。
静止画像(MV+S)を混合しながら、マルチイメージとビデオデータを融合するハイブリッド戦略が、フルフュージョンを大幅に上回ることがわかった。
- 参考スコア(独自算出の注目度): 30.591909012704978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated operation in cross-platform strategy games demands agents with robust generalization across diverse user interfaces and dynamic battlefield conditions. While vision-language models (VLMs) have shown considerable promise in multimodal reasoning, their application to complex human-computer interaction scenarios--such as strategy gaming--remains largely unexplored. Here, we introduce Yanyun-3, a general-purpose agent framework that, for the first time, enables autonomous cross-platform operation across three heterogeneous strategy game environments. By integrating the vision-language reasoning of Qwen2.5-VL with the precise execution capabilities of UI-TARS, Yanyun-3 successfully performs core tasks including target localization, combat resource allocation, and area control. Through systematic ablation studies, we evaluate the effects of various multimodal data combinations--static images, multi-image sequences, and videos--and propose the concept of combination granularity to differentiate between intra-sample fusion and inter-sample mixing strategies. We find that a hybrid strategy, which fuses multi-image and video data while mixing in static images (MV+S), substantially outperforms full fusion: it reduces inference time by 63% and boosts the BLEU-4 score by a factor of 12 (from 4.81% to 62.41%, approximately 12.98x). Operating via a closed-loop pipeline of screen capture, model inference, and action execution, the agent demonstrates strong real-time performance and cross-platform generalization. Beyond providing an efficient solution for strategy game automation, our work establishes a general paradigm for enhancing VLM performance through structured multimodal data organization, offering new insights into the interplay between static perception and dynamic reasoning in embodied intelligence.
- Abstract(参考訳): クロスプラットフォーム戦略ゲームにおける自動操作は、多様なユーザインタフェースと動的戦場条件にまたがる堅牢な一般化を必要とするエージェントを要求する。
視覚言語モデル(VLM)は、マルチモーダル推論においてかなり有望であるが、戦略ゲームのような複雑な人間とコンピュータの相互作用シナリオへの応用は、ほとんど探索されていない。
本稿では,3つの異種戦略ゲーム環境にまたがる自律的クロスプラットフォーム操作を実現する汎用エージェントフレームワークであるYanyun-3を紹介する。
Qwen2.5-VLの視覚言語推論とUI-TARSの正確な実行能力を統合することで、Yanyun-3はターゲットのローカライゼーション、戦闘資源割り当て、エリアコントロールなどのコアタスクをうまく実行した。
組織的アブレーション研究を通じて, 静止画像, マルチイメージシーケンス, ビデオの多モードデータ組み合わせの効果を評価し, サンプル内融合とサンプル間混合戦略を区別するために, 組み合わせの粒度の概念を提案する。
静止画像(MV+S)を混合しながら、マルチイメージとビデオデータを融合するハイブリッド戦略は、推論時間を63%削減し、BLEU-4スコアを12倍(4.81%から62.41%、約12.98倍)に向上させる。
スクリーンキャプチャ、モデル推論、アクション実行のクローズドループパイプラインを介して操作すると、エージェントは強力なリアルタイムパフォーマンスとクロスプラットフォームの一般化を示す。
我々の研究は、戦略ゲーム自動化のための効率的なソリューションを提供するだけでなく、構造化マルチモーダルデータ組織を通してVLMのパフォーマンスを向上させるための一般的なパラダイムを確立し、インボディードインテリジェンスにおける静的知覚と動的推論の相互作用に関する新たな洞察を提供する。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [255.9417257812203]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。
主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。
我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (2025-08-25T17:58:17Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs [13.238196682784562]
CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos) は,大規模言語モデルにおける視覚知覚と言語生成のクリティカルインターフェースをターゲットとした,新しいフレームワークである。
我々のフレームワークは、明示的な正規化ではなく、暗黙の時間的コヒーレンスモデリングによって柔軟性を達成し、画像理解においても大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-01T14:48:27Z) - VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments [25.534332634912005]
マルチエージェント環境における戦略的能力のための視覚言語モデルを評価するベンチマークであるVisual Strategic Bench (VS-Bench)を紹介する。
VLMエージェントの性能は、要素認識精度で測定された知覚、次のアクション予測精度で測定された戦略的推論、正規化エピソードリターンで測定された意思決定の3つの次元にわたって評価される。
論文 参考訳(メタデータ) (2025-06-03T02:57:38Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。
我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。
実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文 参考訳(メタデータ) (2025-04-04T04:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。