論文の概要: Towards an Effective Action-Region Tracking Framework for Fine-grained Video Action Recognition
- arxiv url: http://arxiv.org/abs/2511.21202v1
- Date: Wed, 26 Nov 2025 09:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.036582
- Title: Towards an Effective Action-Region Tracking Framework for Fine-grained Video Action Recognition
- Title(参考訳): きめ細かい映像行動認識のための効果的な行動規制追跡フレームワークの実現に向けて
- Authors: Baoli Sun, Yihan Wang, Xinzhu Ma, Zhihui Wang, Kun Lu, Zhiyong Wang,
- Abstract要約: Action-Region Tracking (ART)は、クエリ応答機構を利用して、ユニークなローカル詳細のダイナミクスを発見し、追跡する新しいソリューションである。
本稿では,識別的およびテキスト制約のあるセマンティクスをクエリとして利用する領域固有のセマンティクスアクティベーションモジュールを提案する。
広く使われている行動認識ベンチマークの実験は、従来の最先端のベースラインよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 35.62986006054654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained action recognition (FGAR) aims to identify subtle and distinctive differences among fine-grained action categories. However, current recognition methods often capture coarse-grained motion patterns but struggle to identify subtle details in local regions evolving over time. In this work, we introduce the Action-Region Tracking (ART) framework, a novel solution leveraging a query-response mechanism to discover and track the dynamics of distinctive local details, enabling effective distinction of similar actions. Specifically, we propose a region-specific semantic activation module that employs discriminative and text-constrained semantics as queries to capture the most action-related region responses in each video frame, facilitating interaction among spatial and temporal dimensions with corresponding video features. The captured region responses are organized into action tracklets, which characterize region-based action dynamics by linking related responses across video frames in a coherent sequence. The text-constrained queries encode nuanced semantic representations derived from textual descriptions of action labels extracted by language branches within Visual Language Models (VLMs). To optimize the action tracklets, we design a multi-level tracklet contrastive constraint among region responses at spatial and temporal levels, enabling effective discrimination within each frame and correlation between adjacent frames. Additionally, a task-specific fine-tuning mechanism refines textual semantics such that semantic representations encoded by VLMs are preserved while optimized for task preferences. Comprehensive experiments on widely used action recognition benchmarks demonstrate the superiority to previous state-of-the-art baselines.
- Abstract(参考訳): きめ細かなアクション認識(FGAR)は、きめ細かなアクションカテゴリ間の微妙で特異な違いを識別することを目的としている。
しかし、現在の認識法は、粗い動きパターンをキャプチャすることが多いが、時間とともに進化する地域の微妙な詳細を特定するのに苦労している。
本研究では,クエリ応答機構を活用して,局所的な特徴のダイナミクスを発見し,追跡し,類似した動作を効果的に区別する手法であるART(Action-Region Tracking)フレームワークを紹介する。
具体的には、識別的およびテキスト制約のあるセマンティクスをクエリとして利用して、各ビデオフレームにおける最もアクション関連のある領域応答をキャプチャし、対応するビデオ特徴と空間的および時間的次元間の相互作用を容易にする領域固有のセマンティクスアクティベーションモジュールを提案する。
キャプチャされた領域応答はアクショントラクレットに整理され、コヒーレントシーケンスでビデオフレーム間で関連する応答をリンクすることで、領域ベースのアクションダイナミクスを特徴付ける。
The text-constrained query encodeed nuanced semantic representations from textual descriptions of action labels extract by language branch in Visual Language Models (VLMs)。
動作トラフレットを最適化するために,空間的および時間的に応答する領域間のマルチレベルトラフレットのコントラスト制約を設計し,各フレーム内で効果的な識別と隣接フレーム間の相関を可能にする。
さらに、タスク固有の微調整機構は、VLMによって符号化された意味表現がタスクの好みに最適化されながら保存されるようなテキスト意味論を洗練する。
広く使われている行動認識ベンチマークに関する総合的な実験は、従来の最先端のベースラインよりも優れていることを示す。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection [7.202931445597171]
本稿では,未編集映像の動作を検出する新しいネットワークを提案する。
このネットワークは、モーション対応2D位置符号化を利用して、ビデオフレーム内のアクションセマンティクスの位置を符号化する。
このアプローチは、4つの提案されたデータセット上で最先端のソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-05-13T21:47:35Z) - Motion-state Alignment for Video Semantic Segmentation [4.375012768093524]
ビデオセマンティックセグメンテーションのための動き状態アライメントフレームワークを提案する。
提案手法は,動的および静的なセマンティクスをターゲットとしてピックアップする。
CityscapesとCamVidデータセットの実験は、提案手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-04-18T08:34:46Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Exploiting Visual Semantic Reasoning for Video-Text Retrieval [14.466809435818984]
フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。
ランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い、意味的関係に関わる領域の特徴を生成する。
推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。
論文 参考訳(メタデータ) (2020-06-16T02:56:46Z) - Retrieving and Highlighting Action with Spatiotemporal Reference [15.283548146322971]
本稿では,ビデオ中のアクションを共同で検索し,時間的にハイライトするフレームワークを提案する。
我々の研究は、アクションハイライトのハイライトという新しいタスクを取り上げ、アンビデオ環境でのアクションの発生場所とタイミングを視覚化する。
論文 参考訳(メタデータ) (2020-05-19T03:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。