論文の概要: Generative Model-Based Feature Attention Module for Video Action Analysis
- arxiv url: http://arxiv.org/abs/2508.13565v1
- Date: Tue, 19 Aug 2025 06:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.824553
- Title: Generative Model-Based Feature Attention Module for Video Action Analysis
- Title(参考訳): 映像行動解析のための生成モデルに基づく特徴注意モジュール
- Authors: Guiqin Wang, Peng Zhao, Cong Zhao, Jing Huang, Siyan Guo, Shusen Yang,
- Abstract要約: 本稿では,特徴意味論の関係を学習するための新しい生成的注意ベースモデルを提案する。
本モデルでは,時間的行動特徴セマンティクスのフレーム依存性とセグメント依存性を同時に学習する。
我々は,広く認識されているデータセットに対する包括的検証を通じて,アプローチの優位性を実証する。
- 参考スコア(独自算出の注目度): 12.406387678107759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video action analysis is a foundational technology within the realm of intelligent video comprehension, particularly concerning its application in Internet of Things(IoT). However, existing methodologies overlook feature semantics in feature extraction and focus on optimizing action proposals, thus these solutions are unsuitable for widespread adoption in high-performance IoT applications due to the limitations in precision, such as autonomous driving, which necessitate robust and scalable intelligent video analytics analysis. To address this issue, we propose a novel generative attention-based model to learn the relation of feature semantics. Specifically, by leveraging the differences of actions' foreground and background, our model simultaneously learns the frame- and segment-dependencies of temporal action feature semantics, which takes advantage of feature semantics in the feature extraction effectively. To evaluate the effectiveness of our model, we conduct extensive experiments on two benchmark video task, action recognition and action detection. In the context of action detection tasks, we substantiate the superiority of our approach through comprehensive validation on widely recognized datasets. Moreover, we extend the validation of the effectiveness of our proposed method to a broader task, video action recognition. Our code is available at https://github.com/Generative-Feature-Model/GAF.
- Abstract(参考訳): ビデオアクション分析は、インテリジェントなビデオ理解の領域における基礎技術であり、特にIoT(Internet of Things)におけるその応用についてである。
しかし、既存の方法論は、機能抽出における機能セマンティクスを見落とし、アクション提案の最適化に重点を置いているため、これらのソリューションは、堅牢でスケーラブルなインテリジェントなビデオ分析分析を必要とする自律運転のような精度の限界のために、高性能なIoTアプリケーションに広く採用するには適していない。
この問題に対処するために,特徴意味論の関係を学習するための新しい生成的注意ベースモデルを提案する。
具体的には,行動の背景と背景の差異を活用することで,時間的行動の特徴的意味論のフレームとセグメント依存性を同時に学習し,特徴抽出における特徴的意味論を効果的に活用する。
本モデルの有効性を評価するため,2つのベンチマークビデオタスク,アクション認識とアクション検出について広範な実験を行った。
行動検出タスクの文脈では、広く認識されているデータセットに対する包括的な検証を通じて、アプローチの優位性を裏付ける。
さらに,提案手法の有効性の検証を,より広範な課題である映像行動認識に拡張する。
私たちのコードはhttps://github.com/Generative-Feature-Model/GAFで利用可能です。
関連論文リスト
- From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Generative Model-based Feature Knowledge Distillation for Action
Recognition [11.31068233536815]
本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。
提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
論文 参考訳(メタデータ) (2023-12-14T03:55:29Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FasterVideo: Efficient Online Joint Object Detection And Tracking [0.8680676599607126]
我々は、画像オブジェクト検出において最も成功した方法の一つである、Faster R-CNNを再考し、それをビデオ領域に拡張する。
提案手法は,関連アプリケーションに必要な計算効率が非常に高い。
論文 参考訳(メタデータ) (2022-04-15T09:25:34Z) - Continuous Human Action Recognition for Human-Machine Interaction: A
Review [39.593687054839265]
入力ビデオ内のアクションを認識することは難しいが、リアルタイムの人間と機械のインタラクションを必要とするアプリケーションに必要なタスクである。
我々は,ほとんどの最先端手法で使用される特徴抽出と学習戦略について述べる。
実世界のシナリオへのそのようなモデルの適用について検討し、いくつかの制限と研究の方向性について論じる。
論文 参考訳(メタデータ) (2022-02-26T09:25:44Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。