論文の概要: CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.22846v1
- Date: Tue, 24 Mar 2026 06:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.335475
- Title: CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models
- Title(参考訳): CoMaTrack:ビジョン・ランゲージ・アクションモデルによる競合型マルチエージェントゲーム理論追跡
- Authors: Youzhi Liu, Li Gao, Liu Liu, Mingyang Lv, Yang Cai,
- Abstract要約: Embodied Visual Tracking (EVT)は、インテリジェンスにおける中核的な動的タスクである。
競合するゲーム理論のマルチエージェント強化学習フレームワークであるCoMaTrackを提案する。
また、競争力のあるEVTの最初のベンチマークであるCoMaTrack-Benchを紹介します。
- 参考スコア(独自算出の注目度): 17.223855925754837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Visual Tracking (EVT), a core dynamic task in embodied intelligence, requires an agent to precisely follow a language-specified target. Yet most existing methods rely on single-agent imitation learning, suffering from costly expert data and limited generalization due to static training environments. Inspired by competition-driven capability evolution, we propose CoMaTrack, a competitive game-theoretic multi-agent reinforcement learning framework that trains agents in a dynamic adversarial setting with competitive subtasks, yielding stronger adaptive planning and interference-resilient strategies. We further introduce CoMaTrack-Bench, the first benchmark for competitive EVT, featuring game scenarios between a tracker and adaptive opponents across diverse environments and instructions, enabling standardized robustness evaluation under active adversarial interactions. Experiments show that CoMaTrack achieves state-of-the-art results on both standard benchmarks and CoMaTrack-Bench. Notably, a 3B VLM trained with our framework surpasses previous single-agent imitation learning methods based on 7B models on the challenging EVT-Bench, achieving 92.1% in STT, 74.2% in DT, and 57.5% in AT. The benchmark code will be available at https://github.com/wlqcode/CoMaTrack-Bench
- Abstract(参考訳): Embodied Visual Tracking (EVT)は、インテリジェンスの中核となる動的タスクであり、エージェントが言語特定ターゲットを正確に追従する必要がある。
しかし、既存のほとんどの手法はシングルエージェントの模倣学習に依存しており、コストのかかる専門家データと静的トレーニング環境による限定的な一般化に悩まされている。
競争駆動能力の進化にインスパイアされたCoMaTrackは、競合するサブタスクでエージェントを動的に訓練し、より強力な適応計画と干渉耐性戦略をもたらす、競争理論の多エージェント強化学習フレームワークである。
さらに,競争型EVTの最初のベンチマークであるCoMaTrack-Benchを導入し,多様な環境と命令をまたいだトラッカーと適応的対戦者間のゲームシナリオを特徴とし,アクティブな対向相互作用下でのロバスト性評価を可能にする。
実験の結果、CoMaTrackは標準ベンチマークとCoMaTrack-Benchの両方で最先端の結果が得られた。
特に、我々のフレームワークでトレーニングされた3B VLMは、挑戦的なEVT-Bench上での7Bモデルに基づく従来のシングルエージェント模倣学習手法を上回り、STTで92.1%、DTで74.2%、ATで57.5%を達成している。
ベンチマークコードはhttps://github.com/wlqcode/CoMaTrack-Benchで公開される。
関連論文リスト
- DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI [84.9072161615971]
我々は,物理AI用に設計された身体的負の視覚・言語・アクション・フレームワークであるDM0を提案する。
当社の方法論は,事前トレーニング,中級トレーニング,ポストトライニングという,包括的な3段階のパイプラインに従っています。
RoboChallengeベンチマークの実験では、DM0はスペシャリストとジェネリリストの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-16T17:59:16Z) - TrackVLA: Embodied Visual Tracking in the Wild [34.03604806748204]
Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。
既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。
本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:28:09Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。
また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - MixFormer: End-to-End Tracking with Iterative Mixed Attention [47.78513247048846]
変換器上に構築されたMixFormerと呼ばれる,コンパクトなトラッキングフレームワークを提案する。
特徴抽出と目標情報統合を同時に行うための混合注意モジュール(MAM)を提案する。
私たちのMixFormerトラッカーは、7つのトラッキングベンチマークで最先端のパフォーマンスを設定しました。
論文 参考訳(メタデータ) (2023-02-06T14:38:09Z) - Learn to Match: Automatic Matching Network Design for Visual Tracking [43.476030483114094]
明示的な類似性学習の代わりに、6つの新しいマッチング演算子を導入する。
本稿では,これらの演算子の最適組み合わせを探索するバイナリチャネル操作を提案する。
我々のモデルは、OTB100、LaSOT、TrackingNetで67.2の右ロー71.4$、52.6の右ロー58.3$、70.3の右ロー76.0$の利益を得られる。
論文 参考訳(メタデータ) (2021-08-02T12:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。