論文の概要: Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2504.10079v2
- Date: Sat, 09 Aug 2025 15:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.256845
- Title: Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition
- Title(参考訳): ファウショット行動認識のための階層的関係強化表現一般化
- Authors: Hongyu Qu, Ling Xing, Jiachao Zhang, Rui Yan, Yazhou Yao, Xiangbo Shu,
- Abstract要約: アクション認識は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
既存の手法は通常、フレーム間の時間的モデリング戦略を設計することで、各ビデオのフレームレベル表現を学習する。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
- 参考スコア(独自算出の注目度): 43.84348967231349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition (FSAR) aims to recognize novel action categories with few exemplars. Existing methods typically learn frame-level representations for each video by designing inter-frame temporal modeling strategies or inter-video interaction at the coarse video-level granularity. However, they treat each episode task in isolation and neglect fine-grained temporal relation modeling between videos, thus failing to capture shared fine-grained temporal patterns across videos and reuse temporal knowledge from historical tasks. In light of this, we propose HR2G-shot, a Hierarchical Relation-augmented Representation Generalization framework for FSAR, which unifies three types of relation modeling (inter-frame, inter-video, and inter-task) to learn task-specific temporal patterns from a holistic view. Going beyond conducting inter-frame temporal interactions, we further devise two components to respectively explore inter-video and inter-task relationships: i) Inter-video Semantic Correlation (ISC) performs cross-video frame-level interactions in a fine-grained manner, thereby capturing task-specific query features and enhancing both intra-class consistency and inter-class separability; ii) Inter-task Knowledge Transfer (IKT) retrieves and aggregates relevant temporal knowledge from the bank, which stores diverse temporal patterns from historical episode tasks. Extensive experiments on five benchmarks show that HR2G-shot outperforms current top-leading FSAR methods.
- Abstract(参考訳): Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
既存の方法は、フレーム間の時間的モデリング戦略を設計したり、粗いビデオレベルの粒度でビデオ間のインタラクションを設計することで、各ビデオのフレームレベルの表現を学習する。
しかし、各エピソードのタスクを分離して扱い、ビデオ間の微粒な時間的関係モデリングを無視し、ビデオ間での微細な時間的パターンの共有を捉えることができず、歴史的タスクから時間的知識を再利用する。
そこで我々は,FSARの階層的関係強化表現一般化フレームワークであるHR2G-shotを提案する。このフレームワークは,3種類の関係モデリング(フレーム間,ビデオ間,タスク間)を統合し,全体的視点からタスク固有の時間パターンを学習する。
フレーム間の時間的相互作用の実施を超えて、ビデオ間の関係とタスク間の関係をそれぞれ探求する2つのコンポーネントを考案する。
一 ビデオ間セマンティック相関(ISC)は、ビデオ間フレームレベルのインタラクションをきめ細かな方法で行うことにより、タスク固有のクエリ特徴を捕捉し、クラス内一貫性とクラス間分離性の両方を向上する。
二 タスク間知識移転(IKT)は、過去の課題から多様な時間的パターンを記憶する銀行から関連する時間的知識を回収し、集約する。
5つのベンチマークでの大規模な実験は、HR2Gショットが現在のトップリードFSAR法より優れていることを示している。
関連論文リスト
- AsyReC: A Multimodal Graph-based Framework for Spatio-Temporal Asymmetric Dyadic Relationship Classification [8.516886985159928]
ダイアドの社会的関係は、空間的経験と時間的経験の共有によって形成される。
これらの関係をモデル化するための現在の計算手法は3つの大きな課題に直面している。
非対称なダイアド関係分類のための多モードグラフベースのフレームワークAsyReCを提案する。
論文 参考訳(メタデータ) (2025-04-07T12:52:23Z) - DreamRelation: Relation-Centric Video Customization [33.65405972817795]
ビデオのカスタマイズ(英: video customization)とは、2つの主題間のユーザー特定関係を描写したパーソナライズされたビデオを作成することを指す。
既存の手法では、被写体や動きをパーソナライズできるが、複雑なビデオのカスタマイズには苦戦している。
本稿では,DreamRelationを提案する。DreamRelationはビデオの小さな集合を捉え,デカップリング学習とダイナミックエンハンスメントという2つの重要なコンポーネントを活用する。
論文 参考訳(メタデータ) (2025-03-10T17:58:03Z) - Relational Temporal Graph Reasoning for Dual-task Dialogue Language
Understanding [39.76268402567324]
デュアルタスクダイアログ理解言語は、2つの相関ダイアログ言語理解タスクを、その固有の相関を通じて同時に扱うことを目的としている。
我々は、リレーショナル時間グラフ推論(Relational temporal graph reasoning)が中心となる新しいフレームワークを提唱した。
私たちのモデルは最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-06-15T13:19:08Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。