論文の概要: COACH: Collaborative Agents for Contextual Highlighting - A Multi-Agent Framework for Sports Video Analysis
- arxiv url: http://arxiv.org/abs/2512.01853v2
- Date: Tue, 02 Dec 2025 03:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.111855
- Title: COACH: Collaborative Agents for Contextual Highlighting - A Multi-Agent Framework for Sports Video Analysis
- Title(参考訳): COACH: コンテキストハイライトのための協調エージェント-スポーツビデオ分析のためのマルチエージェントフレームワーク
- Authors: Tsz-To Wong, Ching-Chun Huang, Hong-Han Shuai,
- Abstract要約: 本稿では,スポーツ映像理解のための基盤フレームワークとして,再構成可能なマルチエージェントシステム(MAS)を提案する。
本システムでは,各エージェントが,分析の特定の側面を専門とする「認知ツール」として機能する。
この研究は、堅牢でクロスタスクなスポーツビデオインテリジェンスのためのフレキシブルでスケーラブルで解釈可能なシステムへのパラダイムシフトを示す。
- 参考スコア(独自算出の注目度): 29.994841160588397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent sports video analysis demands a comprehensive understanding of temporal context, from micro-level actions to macro-level game strategies. Existing end-to-end models often struggle with this temporal hierarchy, offering solutions that lack generalization, incur high development costs for new tasks, and suffer from poor interpretability. To overcome these limitations, we propose a reconfigurable Multi-Agent System (MAS) as a foundational framework for sports video understanding. In our system, each agent functions as a distinct "cognitive tool" specializing in a specific aspect of analysis. The system's architecture is not confined to a single temporal dimension or task. By leveraging iterative invocation and flexible composition of these agents, our framework can construct adaptive pipelines for both short-term analytic reasoning (e.g., Rally QA) and long-term generative summarization (e.g., match summaries). We demonstrate the adaptability of this framework using two representative tasks in badminton analysis, showcasing its ability to bridge fine-grained event detection and global semantic organization. This work presents a paradigm shift towards a flexible, scalable, and interpretable system for robust, cross-task sports video intelligence. The project homepage is available at https://aiden1020.github.io/COACH-project-page
- Abstract(参考訳): インテリジェントスポーツビデオ分析は、マイクロレベルのアクションからマクロレベルのゲーム戦略まで、時間的文脈の包括的な理解を要求する。
既存のエンドツーエンドモデルは、しばしばこの時間的階層に苦労し、一般化の欠如、新しいタスクの開発コストの増大、解釈可能性の低下といった解決策を提供する。
これらの制約を克服するため,スポーツ映像理解のための基盤フレームワークとして,再構成可能なマルチエージェントシステム(MAS)を提案する。
本システムでは,各エージェントが,分析の特定の側面を専門とする「認知ツール」として機能する。
システムのアーキテクチャは、単一の時間次元やタスクに限定されていない。
これらのエージェントの反復的実行と柔軟な構成を利用することで、短期的解析的推論(例えば、Rally QA)と長期的生成的要約(例えば、マッチング要約)の両方に適応的なパイプラインを構築することができる。
本研究では,バドミントン分析における2つの代表的なタスクを用いて,このフレームワークの適応性を実証し,微細なイベント検出とグローバルなセマンティック組織を橋渡しする能力を示す。
この研究は、堅牢でクロスタスクなスポーツビデオインテリジェンスのためのフレキシブルでスケーラブルで解釈可能なシステムへのパラダイムシフトを示す。
プロジェクトのホームページはhttps://aiden1020.github.io/COACH-project-pageで公開されている。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Referring Video Object Segmentation with Cross-Modality Proxy Queries [23.504655272754587]
Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
近年のアプローチでは、条件付きクエリによるモダリティアライメントに対処し、クエリ応答に基づくメカニズムを用いて対象オブジェクトを追跡する。
本稿では,視覚とテキストのセマンティクスを統合するためのプロキシクエリセットを導入するProxyFormerという新しいRVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-26T07:45:41Z) - Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。
具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。
我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-11-21T12:25:47Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Topological Structure Learning Should Be A Research Priority for LLM-Based Multi-Agent Systems [69.95482609893236]
大規模言語モデルに基づくマルチエージェントシステム(MAS)は、協調的な知性によって複雑なタスクに取り組むための強力なパラダイムとして登場した。
我々は,エージェント間相互作用の構造を明示的にモデル化し,動的に最適化する,エフェトロジーを意識したMASへのパラダイムシフトを求める。
論文 参考訳(メタデータ) (2025-05-28T15:20:09Z) - Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。