論文の概要: AAN: Attributes-Aware Network for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2309.00696v1
- Date: Fri, 1 Sep 2023 18:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:47:22.610031
- Title: AAN: Attributes-Aware Network for Temporal Action Detection
- Title(参考訳): AAN:時間的行動検出のための属性認識ネットワーク
- Authors: Rui Dai, Srijan Das, Michael S. Ryoo, Francois Bremond
- Abstract要約: 本稿では,Attributes-Aware Network (AAN) について述べる。
AANは,2つの一般的なアクション検出データセット – CharadesとToyota Smarthome Untrimmedデータセット – に対して,最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 41.67048207855512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The challenge of long-term video understanding remains constrained by the
efficient extraction of object semantics and the modelling of their
relationships for downstream tasks. Although the CLIP visual features exhibit
discriminative properties for various vision tasks, particularly in object
encoding, they are suboptimal for long-term video understanding. To address
this issue, we present the Attributes-Aware Network (AAN), which consists of
two key components: the Attributes Extractor and a Graph Reasoning block. These
components facilitate the extraction of object-centric attributes and the
modelling of their relationships within the video. By leveraging CLIP features,
AAN outperforms state-of-the-art approaches on two popular action detection
datasets: Charades and Toyota Smarthome Untrimmed datasets.
- Abstract(参考訳): 長期的なビデオ理解の課題は、オブジェクトの意味論の効率的な抽出と、下流タスクにおけるそれらの関係のモデリングによって制約されている。
CLIP視覚特徴は、様々な視覚タスク、特にオブジェクトエンコーディングにおいて識別特性を示すが、長期的なビデオ理解には最適である。
この問題に対処するために,属性抽出とグラフ推論ブロックという2つの重要なコンポーネントからなる属性認識ネットワーク(aan)を提案する。
これらのコンポーネントは、ビデオ内のオブジェクト中心属性の抽出とそれらの関係のモデリングを容易にする。
クリップ機能を活用することで、aanは、charadesとtoyota smarthomeの2つの一般的なアクション検出データセットで最先端のアプローチを上回る。
関連論文リスト
- Upsampling DINOv2 features for unsupervised vision tasks and weakly supervised materials segmentation [0.0]
自己監督型視覚変換器(ViT)は、オブジェクトのローカライゼーションやセグメンテーションといった下流タスクに関連する強力な意味情報と位置情報を含んでいる。
最近の研究は、これらの機能をクラスタリングやグラフパーティショニング、リージョン相関といった従来の手法と組み合わせて、追加のネットワークを微調整したり訓練したりすることなく、印象的なベースラインを達成している。
論文 参考訳(メタデータ) (2024-10-20T13:01:53Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Temporal Attribute-Appearance Learning Network for Video-based Person
Re-Identification [94.03477970865772]
本稿では,ビデオに基づく人物再識別のための時間属性・アプライアンス学習ネットワーク(TALNet)を提案する。
TALNetは人間の属性と外観を利用して、ビデオから包括的で効果的な歩行者表現を学習する。
論文 参考訳(メタデータ) (2020-09-09T09:28:07Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。