論文の概要: Few-Shot Precise Event Spotting via Unified Multi-Entity Graph and Distillation
- arxiv url: http://arxiv.org/abs/2511.14186v1
- Date: Tue, 18 Nov 2025 06:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.976739
- Title: Few-Shot Precise Event Spotting via Unified Multi-Entity Graph and Distillation
- Title(参考訳): 統一マルチエンティティグラフと蒸留によるFew-Shot精密イベントスポッティング
- Authors: Zhaoyu Liu, Kan Jiang, Murong Ma, Zhe Hou, Yun Lin, Jin Song Dong,
- Abstract要約: イベントスポッティングはスポーツ分析の重要なコンポーネントである。
現在の手法は、大きなラベル付きデータセットによるドメイン固有のエンドツーエンドのトレーニングに依存している。
本稿では,MPSのためのUMEG-Net(Unified Multi-Entity Graph Network)を提案する。
- 参考スコア(独自算出の注目度): 15.108898002423734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise event spotting (PES) aims to recognize fine-grained events at exact moments and has become a key component of sports analytics. This task is particularly challenging due to rapid succession, motion blur, and subtle visual differences. Consequently, most existing methods rely on domain-specific, end-to-end training with large labeled datasets and often struggle in few-shot conditions due to their dependence on pixel- or pose-based inputs alone. However, obtaining large labeled datasets is practically hard. We propose a Unified Multi-Entity Graph Network (UMEG-Net) for few-shot PES. UMEG-Net integrates human skeletons and sport-specific object keypoints into a unified graph and features an efficient spatio-temporal extraction module based on advanced GCN and multi-scale temporal shift. To further enhance performance, we employ multimodal distillation to transfer knowledge from keypoint-based graphs to visual representations. Our approach achieves robust performance with limited labeled data and significantly outperforms baseline models in few-shot settings, providing a scalable and effective solution for few-shot PES. Code is publicly available at https://github.com/LZYAndy/UMEG-Net.
- Abstract(参考訳): 精密イベントスポッティング(PES)は,詳細なイベントを正確なタイミングで認識することを目的としており,スポーツ分析の重要な構成要素となっている。
この課題は、急激な継承、動きのぼかし、微妙な視覚的差異のために特に困難である。
その結果、既存のほとんどのメソッドは、大きなラベル付きデータセットによるドメイン固有のエンドツーエンドのトレーニングに依存しており、ピクセルやポーズベースの入力のみに依存しているため、少ないショット条件で苦労することが多い。
しかし、大きなラベル付きデータセットを得ることは事実上困難である。
本稿では,MPSのためのUMEG-Net(Unified Multi-Entity Graph Network)を提案する。
UMEG-Netは人間の骨格とスポーツ固有のオブジェクトキーポイントを統一グラフに統合し、高度なGCNとマルチスケールの時間シフトに基づく効率的な時空間抽出モジュールを特徴とする。
性能向上のために,キーポイントグラフから視覚表現への知識の伝達にマルチモーダル蒸留を用いる。
提案手法はラベル付き限られたデータで堅牢な性能を実現し、数ショット設定でベースラインモデルを大幅に上回り、数ショットのPSSに対してスケーラブルで効果的なソリューションを提供する。
コードはhttps://github.com/LZYAndy/UMEG-Netで公開されている。
関連論文リスト
- Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文 参考訳(メタデータ) (2024-07-28T13:57:03Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - ReST: A Reconfigurable Spatial-Temporal Graph Model for Multi-Camera
Multi-Object Tracking [11.619493960418176]
Multi-Camera Multi-Object Tracking (MC-MOT)は、複数のビューからの情報を利用して、閉塞や混み合ったシーンの問題に対処する。
現在のグラフベースの手法では、空間的および時間的整合性に関する情報を効果的に利用しない。
本稿では,まず,検出対象を空間的に関連づけて時間グラフに再構成する,新しい再構成可能なグラフモデルを提案する。
論文 参考訳(メタデータ) (2023-08-25T08:02:04Z) - A Dynamic Graph CNN with Cross-Representation Distillation for
Event-Based Recognition [21.225945234873745]
グラフクロス表現蒸留(CRD)と呼ばれる新しいイベントベースのグラフ学習フレームワークを提案する。
CRDはイベントグラフの監視と事前知識を提供する。
我々のモデルと学習フレームワークは、複数の視覚タスクにまたがって効果的に一般化されている。
論文 参考訳(メタデータ) (2023-02-08T16:35:39Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。