論文の概要: Temporal Alignment-Free Video Matching for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2504.05956v1
- Date: Tue, 08 Apr 2025 12:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:17.582165
- Title: Temporal Alignment-Free Video Matching for Few-shot Action Recognition
- Title(参考訳): Few-shot行動認識のための時間アライメントフリービデオマッチング
- Authors: SuBeen Lee, WonJun Moon, Hyun Seok Seong, Jae-Pil Heo,
- Abstract要約: 提案手法は, 動作表現における時間単位の必要性を排除し, マッチング中にブルートフォースアライメントを不要とした, TEmporal Alignment-free Matching手法を提案する。
具体的には、TEAMは、アクションの長さや速度に関わらず、ビデオインスタンス内のグローバルな識別ヒントをキャプチャする、固定されたパターントークンセットで、各ビデオを表現する。
本稿では,クラス間の共通情報を識別・削除する適応プロセスを提案し,新しいカテゴリ間においても明確な境界を確立する。
- 参考スコア(独自算出の注目度): 20.79048009076496
- License:
- Abstract: Few-Shot Action Recognition (FSAR) aims to train a model with only a few labeled video instances. A key challenge in FSAR is handling divergent narrative trajectories for precise video matching. While the frame- and tuple-level alignment approaches have been promising, their methods heavily rely on pre-defined and length-dependent alignment units (e.g., frames or tuples), which limits flexibility for actions of varying lengths and speeds. In this work, we introduce a novel TEmporal Alignment-free Matching (TEAM) approach, which eliminates the need for temporal units in action representation and brute-force alignment during matching. Specifically, TEAM represents each video with a fixed set of pattern tokens that capture globally discriminative clues within the video instance regardless of action length or speed, ensuring its flexibility. Furthermore, TEAM is inherently efficient, using token-wise comparisons to measure similarity between videos, unlike existing methods that rely on pairwise comparisons for temporal alignment. Additionally, we propose an adaptation process that identifies and removes common information across classes, establishing clear boundaries even between novel categories. Extensive experiments demonstrate the effectiveness of TEAM. Codes are available at github.com/leesb7426/TEAM.
- Abstract(参考訳): Few-Shot Action Recognition (FSAR)は、少数のラベル付きビデオインスタンスでモデルをトレーニングすることを目的としている。
FSARの重要な課題は、正確なビデオマッチングのために異なる物語の軌跡を扱うことである。
フレームレベルのアライメントとタプルレベルのアライメントアプローチは有望だが、その手法は事前に定義された長さに依存したアライメントユニット(フレームやタプルなど)に大きく依存している。
本研究では, TEAM (TEAM) アプローチを導入し, 動作表現における時間単位の必要性を排除し, マッチング時のブルートフォースアライメントを実現する。
具体的には、TEAMは、アクションの長さや速度に関わらず、ビデオインスタンス内のグローバルな差別的手がかりをキャプチャし、その柔軟性を保証する、固定されたパターントークンセットで、各ビデオを表現する。
さらにTEAMは、時間的アライメントのペアワイズ比較に依存する既存の方法とは異なり、ビデオ間の類似度を測定するためにトークンワイズ比較を使用して、本質的に効率的である。
さらに,クラス間の共通情報を識別・削除する適応プロセスを提案し,新しいカテゴリ間においても明確な境界を確立する。
大規模な実験はTEAMの有効性を示す。
コードはgithub.com/leesb7426/TEAMで入手できる。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。