論文の概要: Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.12937v1
- Date: Mon, 17 Nov 2025 03:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.643035
- Title: Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
- Title(参考訳): Yanyun-3:ビジョンランゲージモデルによるクロスプラットフォーム戦略ゲーム操作の実現
- Authors: Guoyan Wang, Yanyan Huang, Chunlin Chen, Lifeng Wang, Yuxiang Sun,
- Abstract要約: 本稿では,戦略ゲームにおける自律的クロスプラットフォーム操作を実現する汎用エージェントフレームワークYanyun-3を紹介する。
Qwen2.5-VLの視覚言語推論とUI-TARSの正確な実行能力を統合することで、Yanyun-3はコアタスクをうまく実行した。
静止画像(MV+S)を混合しながら、マルチイメージとビデオデータを融合するハイブリッド戦略が、フルフュージョンを大幅に上回ることがわかった。
- 参考スコア(独自算出の注目度): 30.591909012704978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated operation in cross-platform strategy games demands agents with robust generalization across diverse user interfaces and dynamic battlefield conditions. While vision-language models (VLMs) have shown considerable promise in multimodal reasoning, their application to complex human-computer interaction scenarios--such as strategy gaming--remains largely unexplored. Here, we introduce Yanyun-3, a general-purpose agent framework that, for the first time, enables autonomous cross-platform operation across three heterogeneous strategy game environments. By integrating the vision-language reasoning of Qwen2.5-VL with the precise execution capabilities of UI-TARS, Yanyun-3 successfully performs core tasks including target localization, combat resource allocation, and area control. Through systematic ablation studies, we evaluate the effects of various multimodal data combinations--static images, multi-image sequences, and videos--and propose the concept of combination granularity to differentiate between intra-sample fusion and inter-sample mixing strategies. We find that a hybrid strategy, which fuses multi-image and video data while mixing in static images (MV+S), substantially outperforms full fusion: it reduces inference time by 63% and boosts the BLEU-4 score by a factor of 12 (from 4.81% to 62.41%, approximately 12.98x). Operating via a closed-loop pipeline of screen capture, model inference, and action execution, the agent demonstrates strong real-time performance and cross-platform generalization. Beyond providing an efficient solution for strategy game automation, our work establishes a general paradigm for enhancing VLM performance through structured multimodal data organization, offering new insights into the interplay between static perception and dynamic reasoning in embodied intelligence.
- Abstract(参考訳): クロスプラットフォーム戦略ゲームにおける自動操作は、多様なユーザインタフェースと動的戦場条件にまたがる堅牢な一般化を必要とするエージェントを要求する。
視覚言語モデル(VLM)は、マルチモーダル推論においてかなり有望であるが、戦略ゲームのような複雑な人間とコンピュータの相互作用シナリオへの応用は、ほとんど探索されていない。
本稿では,3つの異種戦略ゲーム環境にまたがる自律的クロスプラットフォーム操作を実現する汎用エージェントフレームワークであるYanyun-3を紹介する。
Qwen2.5-VLの視覚言語推論とUI-TARSの正確な実行能力を統合することで、Yanyun-3はターゲットのローカライゼーション、戦闘資源割り当て、エリアコントロールなどのコアタスクをうまく実行した。
組織的アブレーション研究を通じて, 静止画像, マルチイメージシーケンス, ビデオの多モードデータ組み合わせの効果を評価し, サンプル内融合とサンプル間混合戦略を区別するために, 組み合わせの粒度の概念を提案する。
静止画像(MV+S)を混合しながら、マルチイメージとビデオデータを融合するハイブリッド戦略は、推論時間を63%削減し、BLEU-4スコアを12倍(4.81%から62.41%、約12.98倍)に向上させる。
スクリーンキャプチャ、モデル推論、アクション実行のクローズドループパイプラインを介して操作すると、エージェントは強力なリアルタイムパフォーマンスとクロスプラットフォームの一般化を示す。
我々の研究は、戦略ゲーム自動化のための効率的なソリューションを提供するだけでなく、構造化マルチモーダルデータ組織を通してVLMのパフォーマンスを向上させるための一般的なパラダイムを確立し、インボディードインテリジェンスにおける静的知覚と動的推論の相互作用に関する新たな洞察を提供する。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding [31.57375084036447]
視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
マルチステップ認識機能を持つVLMを段階的に支援する自己進化型フレームワークであるLASERを提案する。
提案手法はモンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データ構築における精度と多様性を両立させる。
論文 参考訳(メタデータ) (2025-09-04T14:17:01Z) - InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [255.9417257812203]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。
主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。
我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (2025-08-25T17:58:17Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs [13.238196682784562]
CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos) は,大規模言語モデルにおける視覚知覚と言語生成のクリティカルインターフェースをターゲットとした,新しいフレームワークである。
我々のフレームワークは、明示的な正規化ではなく、暗黙の時間的コヒーレンスモデリングによって柔軟性を達成し、画像理解においても大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-01T14:48:27Z) - ZonUI-3B: A Lightweight Vision-Language Model for Cross-Resolution GUI Grounding [0.0]
ZonUI-3Bは、単一のコンシューマグレードGPUで完全にトレーニング可能な軽量ビジョンランゲージモデル(VLM)である。
GUIグラウンディングタスクにおいて、かなり大きなモデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-30T03:33:02Z) - VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments [25.534332634912005]
マルチエージェント環境における戦略的能力のための視覚言語モデルを評価するベンチマークであるVisual Strategic Bench (VS-Bench)を紹介する。
VLMエージェントの性能は、要素認識精度で測定された知覚、次のアクション予測精度で測定された戦略的推論、正規化エピソードリターンで測定された意思決定の3つの次元にわたって評価される。
論文 参考訳(メタデータ) (2025-06-03T02:57:38Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [29.65579758217919]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。
我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。
実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文 参考訳(メタデータ) (2025-04-04T04:15:52Z) - Vision-Language Model Dialog Games for Self-Improvement [7.601039502641712]
VLM Dialog Gamesは、視覚言語モデル(VLM)のための、新しくスケーラブルな自己改善フレームワークである。
ゲームインタラクションの成功をフィルタすることにより、私たちは、インターリーブされた画像とテキストの高品質なデータセットを自動的にキュレートする。
この合成データの微調整は、下流タスクのパフォーマンス向上とデータセット間の一般化につながることを実証する。
論文 参考訳(メタデータ) (2025-02-04T21:58:07Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。