論文の概要: Joint Image-Instance Spatial-Temporal Attention for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2503.14430v1
- Date: Tue, 11 Mar 2025 12:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 06:09:51.870502
- Title: Joint Image-Instance Spatial-Temporal Attention for Few-shot Action Recognition
- Title(参考訳): Few-shot行動認識のための共同画像-インスタンス空間-時間的注意
- Authors: Zefeng Qian, Chongyang Zhang, Yifei Huang, Gang Wang, Jiangyong Ying,
- Abstract要約: 本稿では,Few-shot Action Recognition のための新しい画像インスタンスレベル時空間アテンションアプローチ (I2ST) を提案する。
I2STは2つの重要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 17.348454299076206
- License:
- Abstract: Few-shot Action Recognition (FSAR) constitutes a crucial challenge in computer vision, entailing the recognition of actions from a limited set of examples. Recent approaches mainly focus on employing image-level features to construct temporal dependencies and generate prototypes for each action category. However, a considerable number of these methods utilize mainly image-level features that incorporate background noise and focus insufficiently on real foreground (action-related instances), thereby compromising the recognition capability, particularly in the few-shot scenario. To tackle this issue, we propose a novel joint Image-Instance level Spatial-temporal attention approach (I2ST) for Few-shot Action Recognition. The core concept of I2ST is to perceive the action-related instances and integrate them with image features via spatial-temporal attention. Specifically, I2ST consists of two key components: Action-related Instance Perception and Joint Image-Instance Spatial-temporal Attention. Given the basic representations from the feature extractor, the Action-related Instance Perception is introduced to perceive action-related instances under the guidance of a text-guided segmentation model. Subsequently, the Joint Image-Instance Spatial-temporal Attention is used to construct the feature dependency between instances and images...
- Abstract(参考訳): Few-shot Action Recognition (FSAR) はコンピュータビジョンにおいて重要な課題であり、限られた例から行動を認識する。
近年のアプローチでは、時間的依存を構築し、各アクションカテゴリのプロトタイプを生成するために、画像レベルの特徴を活用することに重点を置いている。
しかし、これらの手法の多くは、背景雑音を取り入れ、実際の前景(アクション関連インスタンス)に十分に焦点を合わせていない画像レベルの特徴を主に利用し、特に少数ショットシナリオにおいて認識能力を向上させる。
そこで本研究では,Few-shot Action Recognition のための新しい画像-インスタンスレベル時空間アテンションアプローチ (I2ST) を提案する。
I2STの中核となる概念は、アクション関連インスタンスを知覚し、空間的時間的注意を通して画像特徴と統合することである。
具体的には、I2STは2つの重要なコンポーネントで構成されている。
特徴抽出器の基本的な表現を考慮し、テキスト誘導セグメンテーションモデルのガイダンスの下でアクション関連インスタンスを知覚するためにアクション関連インスタンス知覚を導入する。
その後、画像と画像間の特徴依存性を構築するために、共同画像インスタンス時空間注意(Joint Image-Instance Spatial-temporal Attention)が使用される。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Action Detection via an Image Diffusion Process [19.013962634522485]
アクション検出は、未トリミングビデオにおけるアクションインスタンスの開始点と終了点をローカライズすることを目的としている。
画像として開始点,終了点,行動クラスの予測を生成するために,3画像生成プロセスによる行動検出に取り組む。
我々のADI-Diffフレームワークは、広く使われている2つのデータセットに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-01T11:12:06Z) - Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation [34.11373539564126]
本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。
この課題の目的は、限られたデータから既存の行動を学び、それを見えない人間や動物に一般化することである。
論文 参考訳(メタデータ) (2023-11-27T14:07:13Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Structured Attention Composition for Temporal Action Localization [99.66510088698051]
マルチモーダル特徴学習の観点から時間的行動ローカライゼーションについて検討する。
従来の注目とは異なり、提案されたモジュールはフレームの注意とモダリティの注意を独立して推測しない。
提案した構造化された注目合成モジュールは、既存のアクションローカライゼーションフレームワークにプラグイン・アンド・プレイモジュールとしてデプロイすることができる。
論文 参考訳(メタデータ) (2022-05-20T04:32:09Z) - Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2021-11-02T23:04:39Z) - Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention [11.23821696220285]
空間的注意は、リモートセンシング画像キャプションのパフォーマンスを高めるための簡単なアプローチです。
インスタンス認識と階層横断に注目したリモートセンシング画像キャプションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-05-11T12:59:07Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。