論文の概要: ContextDet: Temporal Action Detection with Adaptive Context Aggregation
- arxiv url: http://arxiv.org/abs/2410.15279v1
- Date: Sun, 20 Oct 2024 04:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:38.313697
- Title: ContextDet: Temporal Action Detection with Adaptive Context Aggregation
- Title(参考訳): ContextDet: 適応的コンテキストアグリゲーションによる時間的行動検出
- Authors: Ning Wang, Yun Xiao, Xiaopeng Peng, Xiaojun Chang, Xuanhong Wang, Dingyi Fang,
- Abstract要約: 時間的行動検出(TAD)のための単一ステージContextDetフレームワークを提案する。
我々のモデルは、ピラミッド適応型コンテキスト拡張(ACA)アーキテクチャ、長いコンテキストのキャプチャ、行動識別性の改善を特徴としている。
ACAピラミッド全体にわたるこれらの大きなカーネルの長さを変えることで、我々のモデルは軽量で効果的なコンテキストアグリゲーションとアクション識別を提供する。
- 参考スコア(独自算出の注目度): 47.84334557998388
- License:
- Abstract: Temporal action detection (TAD), which locates and recognizes action segments, remains a challenging task in video understanding due to variable segment lengths and ambiguous boundaries. Existing methods treat neighboring contexts of an action segment indiscriminately, leading to imprecise boundary predictions. We introduce a single-stage ContextDet framework, which makes use of large-kernel convolutions in TAD for the first time. Our model features a pyramid adaptive context aggragation (ACA) architecture, capturing long context and improving action discriminability. Each ACA level consists of two novel modules. The context attention module (CAM) identifies salient contextual information, encourages context diversity, and preserves context integrity through a context gating block (CGB). The long context module (LCM) makes use of a mixture of large- and small-kernel convolutions to adaptively gather long-range context and fine-grained local features. Additionally, by varying the length of these large kernels across the ACA pyramid, our model provides lightweight yet effective context aggregation and action discrimination. We conducted extensive experiments and compared our model with a number of advanced TAD methods on six challenging TAD benchmarks: MultiThumos, Charades, FineAction, EPIC-Kitchens 100, Thumos14, and HACS, demonstrating superior accuracy at reduced inference speed.
- Abstract(参考訳): 時間的動作検出 (TAD) は, 動作セグメントの特定と認識を行うが, 動作セグメントの長さやあいまいな境界が原因で, ビデオ理解において難しい課題である。
既存の方法は、アクションセグメントの隣接するコンテキストを無差別に扱い、不正確な境界予測をもたらす。
TADで大規模なカーネルの畳み込みを初めて利用する、単一ステージのContextDetフレームワークを紹介します。
我々のモデルは、ピラミッド適応型コンテキスト拡張(ACA)アーキテクチャ、長いコンテキストのキャプチャ、行動識別性の改善を特徴としている。
各ACAレベルは2つの新しいモジュールから構成される。
コンテキストアテンションモジュール(CAM)は、健全なコンテキスト情報を特定し、コンテキストの多様性を促進し、コンテキストゲーティングブロック(CGB)を介してコンテキスト整合性を保持する。
長いコンテキストモジュール(LCM)は、大きなカーネルと小さなカーネルの畳み込みを混合して、長距離コンテキストときめ細かいローカル特徴を適応的に収集する。
さらに、ACAピラミッド全体にわたってこれらの大きなカーネルの長さを変化させることで、軽量で効果的なコンテキストアグリゲーションとアクション識別を提供する。
我々は広範囲な実験を行い、MultiThumos, Charades, FineAction, EPIC-Kitchens 100, Thumos14, HACS の6つの挑戦的TADベンチマークにおいて、我々のモデルと比較した。
関連論文リスト
- Contextrast: Contextual Contrastive Learning for Semantic Segmentation [9.051352746190448]
コントラスト学習に基づくセマンティックセグメンテーション手法であるContextrastを提案する。
提案手法は,文脈コントラスト学習 (CCL) と境界認識型負サンプリング (B) の2つの部分からなる。
我々のContextrastはセマンティックセグメンテーションネットワークの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-16T15:04:55Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - A Unified Efficient Pyramid Transformer for Semantic Segmentation [40.20512714144266]
我々はコンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトをセグメント化する統一フレームワーク(UN-EPT)を提唱する。
我々はまず,効率的なコンテキストモデリングのために,トランスフォーマーに基づくアテンション機構を組み込むため,スパースサンプリング戦略を適用した。
メモリフットプリントの少ないセマンティックセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。
論文 参考訳(メタデータ) (2021-07-29T17:47:32Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。