論文の概要: OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2502.20361v1
- Date: Thu, 27 Feb 2025 18:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:12.519848
- Title: OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection
- Title(参考訳): OpenTAD: 統合されたフレームワークと時間的行動検出に関する総合的研究
- Authors: Shuming Liu, Chen Zhao, Fatimah Zohra, Mattia Soldan, Alejandro Pardo, Mengmeng Xu, Lama Alssum, Merey Ramazanova, Juan León Alcázar, Anthony Cioppa, Silvio Giancola, Carlos Hinojosa, Bernard Ghanem,
- Abstract要約: 時間的行動検出(TAD)は、人間の行動を特定し、その時間的境界を動画内でローカライズすることを目的とした、基本的なビデオ理解タスクである。
我々は16種類のTADメソッドと9つの標準データセットをモジュール化したTADフレームワークであるtextbfOpenTADを提案する。
1つのモジュールを別の設計で置き換える、フィーチャベースのTADモデルをエンドツーエンドモードでトレーニングする、あるいは2つのモジュールを切り替える、という最小限の労力が必要になります。
- 参考スコア(独自算出の注目度): 86.30994231610651
- License:
- Abstract: Temporal action detection (TAD) is a fundamental video understanding task that aims to identify human actions and localize their temporal boundaries in videos. Although this field has achieved remarkable progress in recent years, further progress and real-world applications are impeded by the absence of a standardized framework. Currently, different methods are compared under different implementation settings, evaluation protocols, etc., making it difficult to assess the real effectiveness of a specific technique. To address this issue, we propose \textbf{OpenTAD}, a unified TAD framework consolidating 16 different TAD methods and 9 standard datasets into a modular codebase. In OpenTAD, minimal effort is required to replace one module with a different design, train a feature-based TAD model in end-to-end mode, or switch between the two. OpenTAD also facilitates straightforward benchmarking across various datasets and enables fair and in-depth comparisons among different methods. With OpenTAD, we comprehensively study how innovations in different network components affect detection performance and identify the most effective design choices through extensive experiments. This study has led to a new state-of-the-art TAD method built upon existing techniques for each component. We have made our code and models available at https://github.com/sming256/OpenTAD.
- Abstract(参考訳): 時間的行動検出(TAD)は、人間の行動を特定し、その時間的境界を動画内でローカライズすることを目的とした、基本的なビデオ理解タスクである。
近年、この分野は目覚ましい進歩を遂げているが、標準化されたフレームワークの欠如により、さらなる進歩と現実の応用が妨げられている。
現在、異なる実装設定や評価プロトコル等で異なる手法を比較しており、特定の手法の実際の有効性を評価することは困難である。
この問題に対処するために,16の異なるTADメソッドと9つの標準データセットをモジュール化したTADフレームワークである‘textbf{OpenTAD}’を提案する。
OpenTADでは、1つのモジュールを別の設計で置き換える、フィーチャベースのTADモデルをエンドツーエンドモードでトレーニングする、あるいは2つのモジュールを切り替える、という最小限の労力が必要になります。
OpenTADはまた、さまざまなデータセットを簡単にベンチマークし、さまざまなメソッド間の公正かつ詳細な比較を可能にする。
OpenTADでは、異なるネットワークコンポーネントのイノベーションが検出性能にどのように影響するかを包括的に研究し、広範な実験を通して最も効果的な設計選択を特定する。
この研究により、各コンポーネントの既存の技術に基づいて、最先端のTAD手法が構築された。
コードとモデルはhttps://github.com/sming256/OpenTAD.comで公開しています。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights [8.725446812770791]
本稿では,コンピュータビジョンにおけるオブジェクト検出のためのソースフリー領域適応に着目した。
最近の研究では、ソースフリーオブジェクト検出(SFOD)の様々なソリューションが提案されている。
論文 参考訳(メタデータ) (2024-07-10T12:18:38Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Unified-modal Salient Object Detection via Adaptive Prompt Learning [18.90181500147265]
単一モードSODタスクと多モードSODタスクの両方に対処するため,UniSODと呼ばれる統一フレームワークを提案する。
UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモーダルアウェアプロンプトを学習する。
提案手法は,RGB,RGB-D,RGB-T SODの14のベンチマークデータセットに対して,総合的な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:51:08Z) - Few-shot Event Detection: An Empirical Study and a Unified View [28.893154182743643]
イベント検出(ED)は広く研究されているが、これは顕著な相違をもたらす。
本稿では,EDモデルの統一的なビューと,より優れた統一されたベースラインについて,徹底的な実証研究を行う。
論文 参考訳(メタデータ) (2023-05-03T05:31:48Z) - BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection [46.37418710853632]
複雑な設計の現況とTADにおける検出効率の低さを考慮し, 単純で, 単純で, かつ, 必須のベースラインについて検討する。
このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、パイプライン全体にわたってエンドツーエンドのトレーニングを実行することです。
この単純なベーシックTADは、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイムRGB-Onlyベースラインを得る。
論文 参考訳(メタデータ) (2022-05-05T15:42:56Z) - Benchmarking Deep Models for Salient Object Detection [67.07247772280212]
汎用SALOD(General SALient Object Detection)ベンチマークを構築し,複数のSOD手法の総合的な比較を行った。
以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。
我々は,深層ネットワークに画素レベルと画像レベルの両方の監視信号を統合することにより,より識別的な特徴を学習するためのエッジ・アウェア・ロス(EA)を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:43:16Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。