Fugu-MT 論文翻訳(概要): Semantic-aware Video Representation for Few-shot Action Recognition

論文の概要: Semantic-aware Video Representation for Few-shot Action Recognition

arxiv url: http://arxiv.org/abs/2311.06218v1
Date: Fri, 10 Nov 2023 18:13:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 14:14:01.716366
Title: Semantic-aware Video Representation for Few-shot Action Recognition
Title（参考訳）: アクション認識のための意味認識型ビデオ表現
Authors: Yutao Tang, Benjamin Bejar, Rene Vidal
Abstract要約: 本稿では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。提案手法は,3次元特徴抽出器と効果的な特徴融合方式を併用し,分類のための単純なコサイン類似性により,より優れた性能が得られることを示す。様々な条件下での5つの挑戦的な数発アクション認識ベンチマークの実験により、提案したSAFSARモデルが最先端の性能を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 1.6486717871944268
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work on action recognition leverages 3D features and textual information to achieve state-of-the-art performance. However, most of the current few-shot action recognition methods still rely on 2D frame-level representations, often require additional components to model temporal relations, and employ complex distance functions to achieve accurate alignment of these representations. In addition, existing methods struggle to effectively integrate textual semantics, some resorting to concatenation or addition of textual and visual features, and some using text merely as an additional supervision without truly achieving feature fusion and information transfer from different modalities. In this work, we propose a simple yet effective Semantic-Aware Few-Shot Action Recognition (SAFSAR) model to address these issues. We show that directly leveraging a 3D feature extractor combined with an effective feature-fusion scheme, and a simple cosine similarity for classification can yield better performance without the need of extra components for temporal modeling or complex distance functions. We introduce an innovative scheme to encode the textual semantics into the video representation which adaptively fuses features from text and video, and encourages the visual encoder to extract more semantically consistent features. In this scheme, SAFSAR achieves alignment and fusion in a compact way. Experiments on five challenging few-shot action recognition benchmarks under various settings demonstrate that the proposed SAFSAR model significantly improves the state-of-the-art performance.
Abstract（参考訳）: 近年の動作認識の研究は3次元特徴とテキスト情報を活用して最先端の性能を実現する。しかし、現在のノンショットアクション認識手法のほとんどは、2dフレームレベルの表現に依存しており、しばしば時間関係をモデル化するために追加のコンポーネントを必要とし、これらの表現の正確なアライメントを達成するために複雑な距離関数を用いる。さらに、既存の手法では、テキスト意味論を効果的に統合するのに苦労し、テキストと視覚的特徴の結合や追加を頼りにするものや、テキストを単に追加の監督として使うものも、機能融合や異なるモダリティからの情報伝達を真に達成することができない。本研究では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。本研究では,3次元特徴抽出器と効果的な特徴融合方式とを併用して,時間的モデリングや複雑な距離関数の余分な部品を必要とせずに,分類のための単純なコサイン類似性を向上できることを示す。我々は,テキストと映像の機能を適応的に融合する映像表現にテキスト意味論をエンコードする革新的な手法を導入し,視覚エンコーダがより意味的に一貫性のある特徴を抽出するように促す。このスキームでは、SAFSARはコンパクトな方法でアライメントと融合を達成する。様々な条件下での5つの挑戦的な数発動作認識ベンチマーク実験は、提案するsafsarモデルが最先端の性能を大幅に改善することを示している。

関連論文リスト

Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval [23.75587275795415]
本稿では,ビデオ内のさまざまなコンテキストを一定数のプロトタイプにエンコードするプロトタイプPRVRフレームワークを提案する。ビデオコンテキストを正確に符号化しながら、テキストクエリを介してプロトタイプを検索できるように、クロスモーダルおよびユニモーダル再構成タスクを実装した。
論文参考訳（メタデータ） (2025-04-17T15:43:29Z)
Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning [11.015244501780078]
本稿では,動的グラフ精錬法(SFDR)を用いた意味空間的特徴融合を提案する。提案手法は,生成した記述の質を著しく向上させる。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-30T14:14:41Z)
Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context [0.0]
本稿では,行動の階層的構造を利用して行動認識を改善する新しい手法を提案する。 RGBと光フローデータから視覚的特徴が得られ、テキスト埋め込みは文脈情報を表す。また,文脈的・階層的データの統合が行動認識性能に与える影響を評価するためのアブレーション研究も行った。
論文参考訳（メタデータ） (2024-10-28T17:59:35Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。 Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文参考訳（メタデータ） (2023-10-16T07:08:39Z)
MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文参考訳（メタデータ） (2023-08-03T04:17:25Z)
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文参考訳（メタデータ） (2022-04-06T02:42:33Z)
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文参考訳（メタデータ） (2022-03-06T13:57:09Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
Interactive Fusion of Multi-level Features for Compositional Activity Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文参考訳（メタデータ） (2020-12-10T14:17:18Z)
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文参考訳（メタデータ） (2020-10-20T03:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。