論文の概要: Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.12937v2
- Date: Mon, 24 Nov 2025 07:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.260713
- Title: Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
- Title(参考訳): Yanyun-3:ビジョンランゲージモデルによるクロスプラットフォーム戦略ゲーム操作の実現
- Authors: Guoyan Wang, Yanyan Huang, Chunlin Chen, Lifeng Wang, Yuxiang Sun,
- Abstract要約: Yanyun-3は、ビジュアル推論のためのQwen2.5-VLとインターフェイス実行のためのUI-TARSを統合したVLMベースのエージェントである。
マルチモーダルデータのサンプル内融合とサンプル間混合を区別する新しいデータ組織原理を提案する。
Yanyun-3はGUI自動化のための汎用的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 30.591909012704978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-platform strategy game automation remains a challenge due to diverse user interfaces and dynamic battlefield environments. Existing Vision--Language Models (VLMs) struggle with generalization across heterogeneous platforms and lack precision in interface understanding and action execution. We introduce Yanyun-3, a VLM-based agent that integrates Qwen2.5-VL for visual reasoning and UI-TARS for interface execution. We propose a novel data organization principle -- combination granularity -- to distinguish intra-sample fusion and inter-sample mixing of multimodal data (static images, multi-image sequences, and videos). The model is fine-tuned using QLoRA on a curated dataset across three strategy game platforms. The optimal strategy (M*V+S) achieves a 12.98x improvement in BLEU-4 score and a 63% reduction in inference time compared to full fusion. Yanyun-3 successfully executes core tasks (e.g., target selection, resource allocation) across platforms without platform-specific tuning. Our findings demonstrate that structured multimodal data organization significantly enhances VLM performance in embodied tasks. Yanyun-3 offers a generalizable framework for GUI automation, with broader implications for robotics and autonomous systems.
- Abstract(参考訳): クロスプラットフォーム戦略ゲーム自動化は、多様なユーザインターフェースと動的戦場環境のために依然として課題である。
既存のビジョン-言語モデル(VLM)は、異種プラットフォーム間の一般化に苦慮し、インタフェース理解とアクション実行の精度に欠ける。
本稿では,視覚的推論のためのQwen2.5-VLとインタフェース実行のためのUI-TARSを統合したVLMベースのエージェントYanyun-3を紹介する。
本稿では,マルチモーダルデータ(静止画像,マルチイメージシーケンス,ビデオ)のサンプル内融合とサンプル間混合を区別する,新しいデータ組織原理を提案する。
このモデルは、3つの戦略ゲームプラットフォームにまたがるキュレートデータセット上でQLoRAを使用して微調整される。
最適戦略(M*V+S)は、BLEU-4のスコアを12.98倍改善し、フルフュージョンに比べて63%の推論時間を短縮する。
Yanyun-3は、プラットフォーム固有のチューニングなしで、プラットフォーム間でコアタスク(例えば、ターゲットの選択、リソース割り当て)をうまく実行します。
本研究は,構造化マルチモーダルデータ構造により,組込み作業におけるVLM性能が著しく向上することを示す。
Yanyun-3はGUI自動化のための汎用的なフレームワークを提供する。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [255.9417257812203]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。
主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。
我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (2025-08-25T17:58:17Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs [13.238196682784562]
CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos) は,大規模言語モデルにおける視覚知覚と言語生成のクリティカルインターフェースをターゲットとした,新しいフレームワークである。
我々のフレームワークは、明示的な正規化ではなく、暗黙の時間的コヒーレンスモデリングによって柔軟性を達成し、画像理解においても大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-01T14:48:27Z) - VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments [25.534332634912005]
マルチエージェント環境における戦略的能力のための視覚言語モデルを評価するベンチマークであるVisual Strategic Bench (VS-Bench)を紹介する。
VLMエージェントの性能は、要素認識精度で測定された知覚、次のアクション予測精度で測定された戦略的推論、正規化エピソードリターンで測定された意思決定の3つの次元にわたって評価される。
論文 参考訳(メタデータ) (2025-06-03T02:57:38Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。
我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。
実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文 参考訳(メタデータ) (2025-04-04T04:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。