Fugu-MT 論文翻訳(概要): Hierarchical Compositional Representations for Few-shot Action Recognition

論文の概要: Hierarchical Compositional Representations for Few-shot Action Recognition

arxiv url: http://arxiv.org/abs/2208.09424v3
Date: Fri, 19 Jan 2024 05:32:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 19:37:12.960877
Title: Hierarchical Compositional Representations for Few-shot Action Recognition
Title（参考訳）: ファウショット行動認識のための階層的構成表現
Authors: Changzhen Li, Jie Zhang, Shuzhe Wu, Xin Jin, and Shiguang Shan
Abstract要約: 本稿では,新しい階層型合成表現(HCR)学習手法を提案する。複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
参考スコア（独自算出の注目度）: 51.288829293306335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently action recognition has received more and more attention for its comprehensive and practical applications in intelligent surveillance and human-computer interaction. However, few-shot action recognition has not been well explored and remains challenging because of data scarcity. In this paper, we propose a novel hierarchical compositional representations (HCR) learning approach for few-shot action recognition. Specifically, we divide a complicated action into several sub-actions by carefully designed hierarchical clustering and further decompose the sub-actions into more fine-grained spatially attentional sub-actions (SAS-actions). Although there exist large differences between base classes and novel classes, they can share similar patterns in sub-actions or SAS-actions. Furthermore, we adopt the Earth Mover's Distance in the transportation problem to measure the similarity between video samples in terms of sub-action representations. It computes the optimal matching flows between sub-actions as distance metric, which is favorable for comparing fine-grained patterns. Extensive experiments show our method achieves the state-of-the-art results on HMDB51, UCF101 and Kinetics datasets.
Abstract（参考訳）: 近年、知的監視と人間とコンピュータのインタラクションにおける包括的かつ実践的な応用により、アクション認識がますます注目を集めている。しかし、少数のアクション認識は十分に研究されておらず、データ不足のため依然として挑戦的である。本稿では,新しい階層型合成表現(HCR)学習手法を提案する。具体的には,階層的クラスタリングを注意深く設計し,さらに細粒度の空間的注意的サブアクション(sas-actions)に分解することで,複雑なアクションを複数のサブアクションに分割する。基本クラスと新規クラスの間には大きな違いがあるが、サブアクションやSASアクションで同様のパターンを共有することができる。さらに,輸送問題におけるアースモーバー距離を,サブアクション表現の観点からビデオサンプル間の類似度を測定するために採用する。サブアクション間の最適なマッチングフローを距離メートル法として計算し、きめ細かいパターンを比較するのに好適である。広範な実験により, hmdb51, ucf101およびkineticsデータセットの最先端の結果が得られた。

関連論文リスト

An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
Learning to Represent Action Values as a Hypergraph on the Action Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。 Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2020-10-28T00:19:13Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。