論文の概要: Semantic-aware Video Representation for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2311.06218v1
- Date: Fri, 10 Nov 2023 18:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:14:01.716366
- Title: Semantic-aware Video Representation for Few-shot Action Recognition
- Title(参考訳): アクション認識のための意味認識型ビデオ表現
- Authors: Yutao Tang, Benjamin Bejar, Rene Vidal
- Abstract要約: 本稿では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。
提案手法は,3次元特徴抽出器と効果的な特徴融合方式を併用し,分類のための単純なコサイン類似性により,より優れた性能が得られることを示す。
様々な条件下での5つの挑戦的な数発アクション認識ベンチマークの実験により、提案したSAFSARモデルが最先端の性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 1.6486717871944268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on action recognition leverages 3D features and textual
information to achieve state-of-the-art performance. However, most of the
current few-shot action recognition methods still rely on 2D frame-level
representations, often require additional components to model temporal
relations, and employ complex distance functions to achieve accurate alignment
of these representations. In addition, existing methods struggle to effectively
integrate textual semantics, some resorting to concatenation or addition of
textual and visual features, and some using text merely as an additional
supervision without truly achieving feature fusion and information transfer
from different modalities. In this work, we propose a simple yet effective
Semantic-Aware Few-Shot Action Recognition (SAFSAR) model to address these
issues. We show that directly leveraging a 3D feature extractor combined with
an effective feature-fusion scheme, and a simple cosine similarity for
classification can yield better performance without the need of extra
components for temporal modeling or complex distance functions. We introduce an
innovative scheme to encode the textual semantics into the video representation
which adaptively fuses features from text and video, and encourages the visual
encoder to extract more semantically consistent features. In this scheme,
SAFSAR achieves alignment and fusion in a compact way. Experiments on five
challenging few-shot action recognition benchmarks under various settings
demonstrate that the proposed SAFSAR model significantly improves the
state-of-the-art performance.
- Abstract(参考訳): 近年の動作認識の研究は3次元特徴とテキスト情報を活用して最先端の性能を実現する。
しかし、現在のノンショットアクション認識手法のほとんどは、2dフレームレベルの表現に依存しており、しばしば時間関係をモデル化するために追加のコンポーネントを必要とし、これらの表現の正確なアライメントを達成するために複雑な距離関数を用いる。
さらに、既存の手法では、テキスト意味論を効果的に統合するのに苦労し、テキストと視覚的特徴の結合や追加を頼りにするものや、テキストを単に追加の監督として使うものも、機能融合や異なるモダリティからの情報伝達を真に達成することができない。
本研究では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。
本研究では,3次元特徴抽出器と効果的な特徴融合方式とを併用して,時間的モデリングや複雑な距離関数の余分な部品を必要とせずに,分類のための単純なコサイン類似性を向上できることを示す。
我々は,テキストと映像の機能を適応的に融合する映像表現にテキスト意味論をエンコードする革新的な手法を導入し,視覚エンコーダがより意味的に一貫性のある特徴を抽出するように促す。
このスキームでは、SAFSARはコンパクトな方法でアライメントと融合を達成する。
様々な条件下での5つの挑戦的な数発動作認識ベンチマーク実験は、提案するsafsarモデルが最先端の性能を大幅に改善することを示している。
関連論文リスト
- Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Interactive Fusion of Multi-level Features for Compositional Activity
Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-10T14:17:18Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。