論文の概要: Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2504.10079v1
- Date: Mon, 14 Apr 2025 10:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:34.016305
- Title: Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition
- Title(参考訳): ファウショット行動認識のための階層的関係強化表現一般化
- Authors: Hongyu Qu, Ling Xing, Rui Yan, Yazhou Yao, Guo-Sen Xie, Xiangbo Shu,
- Abstract要約: Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
3種類の関係モデリング(フレーム間、ビデオ間、タスク間)を統合し、全体的視点からタスク固有の時間パターンを学習する。
- 参考スコア(独自算出の注目度): 53.02634128715853
- License:
- Abstract: Few-shot action recognition (FSAR) aims to recognize novel action categories with few exemplars. Existing methods typically learn frame-level representations independently for each video by designing various inter-frame temporal modeling strategies. However, they neglect explicit relation modeling between videos and tasks, thus failing to capture shared temporal patterns across videos and reuse temporal knowledge from historical tasks. In light of this, we propose HR2G-shot, a Hierarchical Relation-augmented Representation Generalization framework for FSAR, which unifies three types of relation modeling (inter-frame, inter-video, and inter-task) to learn task-specific temporal patterns from a holistic view. In addition to conducting inter-frame temporal interactions, we further devise two components to respectively explore inter-video and inter-task relationships: i) Inter-video Semantic Correlation (ISC) performs cross-video frame-level interactions in a fine-grained manner, thereby capturing task-specific query features and learning intra- and inter-class temporal correlations among support features; ii) Inter-task Knowledge Transfer (IKT) retrieves and aggregates relevant temporal knowledge from the bank, which stores diverse temporal patterns from historical tasks. Extensive experiments on five benchmarks show that HR2G-shot outperforms current top-leading FSAR methods.
- Abstract(参考訳): Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
既存の手法は通常、フレーム間の時間的モデリング戦略を設計することで、ビデオごとにフレームレベルの表現を独立に学習する。
しかし、ビデオとタスク間の明示的な関係モデリングを無視し、ビデオ間で共有された時間的パターンをキャプチャできず、過去のタスクから時間的知識を再利用する。
そこで我々は,FSARの階層的関係強化表現一般化フレームワークであるHR2G-shotを提案する。このフレームワークは,3種類の関係モデリング(フレーム間,ビデオ間,タスク間)を統合し,全体的視点からタスク固有の時間パターンを学習する。
フレーム間の時間的相互作用の実施に加えて、ビデオ間の関係とタスク間の関係をそれぞれ探求する2つのコンポーネントを考案する。
一 ビデオ間セマンティック相関(ISC)は、ビデオ間フレームレベルのインタラクションをきめ細かな方法で行うことにより、タスク固有のクエリ特徴を捉え、サポート特徴のうち、クラス内およびクラス間時間相関を学習する。
二 タスク間知識移転(IKT)は、過去の業務から多様な時間的パターンを記憶する銀行から関連する時間的知識を回収し、集約する。
5つのベンチマークでの大規模な実験は、HR2Gショットが現在のトップリードFSAR法より優れていることを示している。
関連論文リスト
- Video-to-Task Learning via Motion-Guided Attention for Few-Shot Action Recognition [25.646615236717196]
空間的・時間的関係モデリングにより,行動認識の精度は著しく向上した。
近年、クラスプロトタイプを用いてタスク固有の特徴を学習しているが、タスクレベルで異なるビデオ間の関係を見落としている。
そこで本研究では,DMGAL(Dual Motion-Guided Attention Learning)法を提案する。
論文 参考訳(メタデータ) (2024-11-18T07:01:59Z) - Relational Temporal Graph Reasoning for Dual-task Dialogue Language
Understanding [39.76268402567324]
デュアルタスクダイアログ理解言語は、2つの相関ダイアログ言語理解タスクを、その固有の相関を通じて同時に扱うことを目的としている。
我々は、リレーショナル時間グラフ推論(Relational temporal graph reasoning)が中心となる新しいフレームワークを提唱した。
私たちのモデルは最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-06-15T13:19:08Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。