論文の概要: A$^2$M$^2$-Net: Adaptively Aligned Multi-Scale Moment for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2509.17638v1
- Date: Mon, 22 Sep 2025 11:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.351493
- Title: A$^2$M$^2$-Net: Adaptively Aligned Multi-Scale Moment for Few-Shot Action Recognition
- Title(参考訳): A$^2$M$^2$-Net:Few-Shot行動認識のための適応型マルチスケールモーメント
- Authors: Zilin Gao, Qilong Wang, Bingbing Zhang, Qinghua Hu, Peihua Li,
- Abstract要約: A$2$M$2$-Netは、強い表現のための適応アライメントプロトコルを確立することで、困難な時間的ミスアライメント問題に対処することができる。
実験は広く使われている5つのFSARベンチマークで行われ、その結果、A$2$M$2$-Netは最先端技術と比較して非常に競争力のある性能を示している。
- 参考スコア(独自算出の注目度): 56.79651392604733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to capability to alleviate the cost of large-scale annotation, few-shot action recognition (FSAR) has attracted increased attention of researchers in recent years. Existing FSAR approaches typically neglect the role of individual motion pattern in comparison, and under-explore the feature statistics for video dynamics. Thereby, they struggle to handle the challenging temporal misalignment in video dynamics, particularly by using 2D backbones. To overcome these limitations, this work proposes an adaptively aligned multi-scale second-order moment network, namely A$^2$M$^2$-Net, to describe the latent video dynamics with a collection of powerful representation candidates and adaptively align them in an instance-guided manner. To this end, our A$^2$M$^2$-Net involves two core components, namely, adaptive alignment (A$^2$ module) for matching, and multi-scale second-order moment (M$^2$ block) for strong representation. Specifically, M$^2$ block develops a collection of semantic second-order descriptors at multiple spatio-temporal scales. Furthermore, A$^2$ module aims to adaptively select informative candidate descriptors while considering the individual motion pattern. By such means, our A$^2$M$^2$-Net is able to handle the challenging temporal misalignment problem by establishing an adaptive alignment protocol for strong representation. Notably, our proposed method generalizes well to various few-shot settings and diverse metrics. The experiments are conducted on five widely used FSAR benchmarks, and the results show our A$^2$M$^2$-Net achieves very competitive performance compared to state-of-the-arts, demonstrating its effectiveness and generalization.
- Abstract(参考訳): 大規模なアノテーションのコストを緩和する能力により、FSAR ( few-shot Action Recognition) は近年研究者の注目を集めている。
既存のFSARアプローチは、比較において個々の動きパターンの役割を無視し、ビデオ力学の特徴統計を過小評価する。
これにより、特に2Dバックボーンを使用することで、ビデオダイナミックスにおける困難な時間的ミスアライメントを扱うのに苦労する。
これらの制限を克服するために、この研究は適応的に整列されたマルチスケールの2次モーメントネットワーク、すなわちA$^2$M$^2$-Netを提案する。
この目的のために、我々のA$^2$M$^2$-Netは、マッチングのためのアダプティブアライメント(A$^2$モジュール)と強力な表現のためのマルチスケール2階モーメント(M$^2$ブロック)の2つのコアコンポーネントを含んでいる。
具体的には、M$^2$ブロックは、複数の時空間スケールでセマンティックな2階記述子の集合を開発する。
さらに、A$^2$モジュールは、個々の動作パターンを考慮して、情報的候補記述子を適応的に選択することを目的としている。
このようにして、我々のA$^2$M$^2$-Netは、強い表現のための適応アライメントプロトコルを確立することで、困難な時間的ミスアライメント問題に対処することができる。
特に,提案手法は多種多様なショット設定と多種多様なメトリクスによく当てはまる。
実験は広く用いられている5つのFSARベンチマークで行われ、その結果、A$^2$M$^2$-Netは最先端技術と比較して非常に競合的な性能を示し、その有効性と一般化を実証した。
関連論文リスト
- Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。
Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。
このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文 参考訳(メタデータ) (2025-04-14T10:14:44Z) - R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts [21.119495676190127]
大規模マルチモーダルモデル(LMM)では、非言語的モダリティ(視覚表現など)の知覚は通常、大きな言語モデル(LLM)と同等ではない。
本稿では,テスト時間における経路重みのベクトルを局所的に最適化する,新しい効率的な手法であるRe-Routing in Test-Time (R2-T2)を提案する。
R2-T2は、ベースモデルパラメータを訓練することなく、様々なタスクのベンチマークに挑戦する上で、最先端のLMMの性能を一貫して大幅に改善する。
論文 参考訳(メタデータ) (2025-02-27T18:59:32Z) - TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation [76.24766055944554]
動的SGGのデノベーションとデボアシングを目的としたネットワークTD$2$-Netを導入する。
TD$2$-Netは、述語分類における平均リコール@10で、第2位の競争相手を12.7%上回っている。
論文 参考訳(メタデータ) (2024-01-23T04:17:42Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - An end-to-end multi-scale network for action prediction in videos [31.967024536359908]
エンド・ツー・エンド方式で部分的なビデオのアクション・クラスを予測するための効率的なマルチスケール・ネットワークを開発した。
我々のE2EMSNetは、BIT、HMDB51、UCF101という3つの挑戦的なデータセットで評価されている。
論文 参考訳(メタデータ) (2022-12-31T06:58:41Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。