論文の概要: Pareto-guided Pipeline for Distilling Featherweight AI Agents in Mobile MOBA Games
- arxiv url: http://arxiv.org/abs/2602.07521v1
- Date: Sat, 07 Feb 2026 12:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.665224
- Title: Pareto-guided Pipeline for Distilling Featherweight AI Agents in Mobile MOBA Games
- Title(参考訳): モバイルMOBAゲームにおけるフェザー級AIエージェント蒸留用パレートガイドパイプライン
- Authors: Xionghui Yang, Bozhou Chen, Yunlong Lu, Yongyi Wang, Lingfeng Li, Lanxiao Huang, Lin Liu, Wenjun Wang, Meng Meng, Xia Lin, Wenxin Li,
- Abstract要約: ゲームAIの最近の進歩は、トップレベルの人間専門家を超える訓練エージェントの実現可能性を示している。
モバイルデバイスにこのような強力なエージェントを配置することは、依然として大きな課題です。
- 参考スコア(独自算出の注目度): 12.440711528070857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in game AI have demonstrated the feasibility of training agents that surpass top-tier human professionals in complex environments such as Honor of Kings (HoK), a leading mobile multiplayer online battle arena (MOBA) game. However, deploying such powerful agents on mobile devices remains a major challenge. On one hand, the intricate multi-modal state representation and hierarchical action space of HoK demand large, sophisticated policy networks that are inherently difficult to compress into lightweight forms. On the other hand, production deployment requires high-frequency inference under strict energy and latency constraints on mobile platform. To the best of our knowledge, bridging large-scale game AI and practical on-device deployment has not been systematically studied. In this work, we propose a Pareto optimality guided pipeline and design a high-efficiency student architecture search space tailored for mobile execution, enabling systematic exploration of the trade-off between performance and efficiency. Experimental results demonstrate that the distilled model achieves remarkable efficiency, including an $12.4\times$ faster inference speed (under 0.5ms per frame) and a $15.6\times$ improvement in energy efficiency (under 0.5mAh per game), while retaining a 40.32% win rate against the original teacher model.
- Abstract(参考訳): ゲームAIの最近の進歩は、モバイルマルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームであるHonor of Kings(HoK)のような複雑な環境で、トップクラスの人間プロフェッショナルを超える訓練エージェントの実現可能性を示している。
しかし、そのような強力なエージェントをモバイルデバイスにデプロイすることは、依然として大きな課題だ。
一方、HoKの複雑な多モード状態表現と階層的行動空間は、本質的に軽量な形式に圧縮することが困難である大規模で洗練されたポリシーネットワークを必要とする。
一方、プロダクションデプロイメントでは、モバイルプラットフォーム上での厳格なエネルギと遅延制約の下での高周波推論が必要である。
我々の知る限りでは、大規模なゲームAIと実践的なデバイス上でのデプロイメントは体系的に研究されていない。
本研究では,モバイル実行に適した高能率学生アーキテクチャ探索空間を設計し,性能と効率のトレードオフを体系的に探究できるパレート最適パイプラインを提案する。
実験結果によると、蒸留されたモデルは12.4\times$高速推論速度(フレーム当たり0.5ms以下)と15.6\times$エネルギー効率(ゲーム当たり0.5mAh以下)の改善(教師モデルに対して40.32%の勝利率を維持しながら、顕著な効率を実現している。
関連論文リスト
- Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning [56.129822832095726]
AdaMoEはMixture-of-Experts (MoE)アーキテクチャであり、密度の高いVLAモデルから事前訓練された重量を継承する。
実世界の実験で21.5%の大幅な改善が、ロボット操作タスクの実用的効果を実証している。
論文 参考訳(メタデータ) (2025-10-16T04:52:57Z) - Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [196.74837065805488]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。
高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文 参考訳(メタデータ) (2025-05-21T12:11:53Z) - Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles [1.7923169244369488]
マルチエージェント強化学習は、サンプル非効率で悪名高い。
GazeboのLRAUVのような高忠実度シミュレータは、リアルタイムのシングルロボットシミュレーションを100倍高速にする。
本稿では,高忠実度シミュレーションをGPU加速環境へ伝達する反復蒸留法を提案する。
論文 参考訳(メタデータ) (2025-05-13T04:42:30Z) - SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning [20.33419404756149]
本稿では,シミュレーションで純粋に強化学習によって訓練された実世界の課題を,低コストで解決するモバイル操作システムを提案する。
単一のポリシーは、検索、移動、把握、輸送、降下を含む長期的タスクを自律的に解決し、80%近い現実世界の成功を達成します。
この性能は、ロボットがより効率的であり、遠隔操作の約1.5倍の速度で動作しているのに対して、同じタスクにおける専門家の遠隔操作に匹敵する。
論文 参考訳(メタデータ) (2025-01-17T01:32:18Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。
簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文 参考訳(メタデータ) (2023-11-28T19:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。