論文の概要: Deconstruct Complexity (DeComplex): A Novel Perspective on Tackling Dense Action Detection
- arxiv url: http://arxiv.org/abs/2501.18509v1
- Date: Thu, 30 Jan 2025 17:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:54.230356
- Title: Deconstruct Complexity (DeComplex): A Novel Perspective on Tackling Dense Action Detection
- Title(参考訳): Deconstruct Complexity (Decomplex): 難読度検出のための新しい視点
- Authors: Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton,
- Abstract要約: 我々は、人間が複雑なタスクに対して、管理可能なサブタスクに分割することでどのように対処するかに着想を得た、新しい視点を導入する。
問題全体の解決に1つのネットワークに頼る代わりに、アクションクラスに存在する重要な概念を検出するために問題を分解することを提案する。
我々の実験は、最先端手法に対するアプローチの優位性を実証している。
- 参考スコア(独自算出の注目度): 23.100602876056165
- License:
- Abstract: Dense action detection involves detecting multiple co-occurring actions in an untrimmed video while action classes are often ambiguous and represent overlapping concepts. To address this challenge task, we introduce a novel perspective inspired by how humans tackle complex tasks by breaking them into manageable sub-tasks. Instead of relying on a single network to address the entire problem, as in current approaches, we propose decomposing the problem into detecting key concepts present in action classes, specifically, detecting dense static concepts and detecting dense dynamic concepts, and assigning them to distinct, specialized networks. Furthermore, simultaneous actions in a video often exhibit interrelationships, and exploiting these relationships can improve performance. However, we argue that current networks fail to effectively learn these relationships due to their reliance on binary cross-entropy optimization, which treats each class independently. To address this limitation, we propose providing explicit supervision on co-occurring concepts during network optimization through a novel language-guided contrastive learning loss. Our extensive experiments demonstrate the superiority of our approach over state-of-the-art methods, achieving substantial relative improvements of 23.4% and 2.5% mAP on the challenging benchmark datasets, Charades and MultiTHUMOS.
- Abstract(参考訳): 複雑なアクション検出には、トリミングされていないビデオで複数の共起アクションを検出することが含まれるが、アクションクラスは曖昧で重複する概念を表すことが多い。
この課題に対処するために、我々は人間が複雑なタスクにどのように取り組み、それらを管理可能なサブタスクに分割するかに着想を得た新しい視点を導入する。
近年のアプローチのように,単一ネットワークに頼らず,アクションクラスに存在する重要な概念を分解して検出し,特に高密度な静的概念を検知し,高密度な動的概念を検知し,個別のネットワークに割り当てることを提案する。
さらに、ビデオ内の同時アクションは、しばしば相互関係を示し、これらの関係を活用することでパフォーマンスが向上する。
しかし,従来のネットワークは,各クラスを独立に扱うバイナリクロスエントロピー最適化に依存しているため,これらの関係を効果的に学習することができない。
この制限に対処するため,新たな言語誘導型コントラスト学習損失を通じて,ネットワーク最適化における共起概念の明示的な監督を提案する。
我々の大規模な実験は、挑戦的なベンチマークデータセットであるCharadesとMultiTHUMOSに対する23.4%と2.5%の相対的な改善を達成し、最先端の手法に対する我々のアプローチの優位性を実証している。
関連論文リスト
- Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。
トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。
また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文 参考訳(メタデータ) (2025-01-24T10:00:47Z) - An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。