論文の概要: UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2508.19647v1
- Date: Wed, 27 Aug 2025 07:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.546553
- Title: UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks
- Title(参考訳): UTAL-GNN: グラフニューラルネットワークを用いた教師なし時間行動定位
- Authors: Bikash Kumar Badatya, Vipul Baghel, Ravi Hegde,
- Abstract要約: 非トリミングスポーツビデオにおける微粒なアクションローカライゼーションは、迅速かつ微妙な動き遷移のために重大な課題を呈している。
既存の教師付きおよび弱教師付きソリューションは、しばしば広範なデータセットと高容量モデルに依存し、計算集約的で現実世界のシナリオに適応できない。
提案手法では,ブロックワイドパーティションを付加したポーズ列を付加したアテンションベースの時空間グラフ畳み込みネットワーク(ASTGCN)を事前学習する。
DSVダイビングデータセット上で平均平均平均精度(mAP)82.66%、平均遅延局所化29.09msを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained action localization in untrimmed sports videos presents a significant challenge due to rapid and subtle motion transitions over short durations. Existing supervised and weakly supervised solutions often rely on extensive annotated datasets and high-capacity models, making them computationally intensive and less adaptable to real-world scenarios. In this work, we introduce a lightweight and unsupervised skeleton-based action localization pipeline that leverages spatio-temporal graph neural representations. Our approach pre-trains an Attention-based Spatio-Temporal Graph Convolutional Network (ASTGCN) on a pose-sequence denoising task with blockwise partitions, enabling it to learn intrinsic motion dynamics without any manual labeling. At inference, we define a novel Action Dynamics Metric (ADM), computed directly from low-dimensional ASTGCN embeddings, which detects motion boundaries by identifying inflection points in its curvature profile. Our method achieves a mean Average Precision (mAP) of 82.66% and average localization latency of 29.09 ms on the DSV Diving dataset, matching state-of-the-art supervised performance while maintaining computational efficiency. Furthermore, it generalizes robustly to unseen, in-the-wild diving footage without retraining, demonstrating its practical applicability for lightweight, real-time action analysis systems in embedded or dynamic environments.
- Abstract(参考訳): スポーツビデオにおける微粒なアクションローカライゼーションは、短時間の高速かつ微妙な動き遷移によって大きな課題を呈する。
既存の教師付きおよび弱教師付きソリューションは、しばしば広範囲の注釈付きデータセットと高容量モデルに依存し、計算集約的で現実世界のシナリオに適応できない。
本研究では、時空間グラフのニューラル表現を利用した軽量で教師なしのスケルトンに基づくアクションローカライゼーションパイプラインを提案する。
提案手法は,意図に基づく時空間グラフ畳み込みネットワーク (ASTGCN) をブロック分割を用いたポーズ列決定タスクで事前学習することにより,手動ラベリングなしで本質的な動きのダイナミクスを学習することができる。
低次元ASTGCN埋め込みから直接計算し、曲率プロファイルの屈折点を同定して動き境界を検出する新しいアクションダイナミクスメトリック(ADM)を定義する。
提案手法は, 平均平均精度82.66%, 平均ローカライゼーション遅延29.09msを実現し, 計算効率を保ちながら, 最先端の教師付き性能に適合する。
さらに、組み込まれた環境や動的環境における軽量でリアルタイムな行動分析システムへの適用性を実証し、再トレーニングをすることなく、未確認の地中潜水映像に頑健に一般化する。
関連論文リスト
- Temporal Point-Supervised Signal Reconstruction: A Human-Annotation-Free Framework for Weak Moving Target Detection [1.187456026346823]
手動のアノテーションを使わずに弱いターゲットを高速に検出できるTPS(Temporal Point-Supervised)フレームワークを提案する。
テンポラル信号再構成ネットワーク(TSRNet)は、TPSパラダイムの下で開発され、これらの過渡的な信号を再構成する。
目的とする低SNRデータセットに対する大規模な実験により、我々のフレームワークは人間のアノテーションを必要とせず、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-23T09:02:09Z) - FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。
動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。
我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-08-13T15:21:46Z) - Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network [4.386534439007928]
本稿では,GTNNと呼ばれるグラフトランスフォーマーニューラルネットワークを用いたイベントベース動作分割アルゴリズムを提案する。
提案アルゴリズムは, イベント間の局所的および大域的相関を明らかにするために, 一連の非線形変換により, イベントストリームを3次元グラフとして処理する。
GTNNは、動的背景変動、動きパターン、および様々な大きさと速度を持つ複数の動的物体の存在下で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-16T22:44:29Z) - Spatial-wise Dynamic Distillation for MLP-like Efficient Visual Fault
Detection of Freight Trains [11.13191969085042]
貨物列車の故障検出のための多層パーセプトロン(MLP)に基づく動的蒸留フレームワークを提案する。
学生モデルとのセマンティックな相違を効果的に解消する動的教師を提案する。
提案手法は現在の最先端検出器より優れており,より少ない計算コストでリアルタイム検出を行うことができる。
論文 参考訳(メタデータ) (2023-12-10T09:18:24Z) - EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning [92.71579608528907]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。
EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文 参考訳(メタデータ) (2023-03-22T06:35:08Z) - ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization [39.377289930528555]
教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-12-21T04:18:44Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。