論文の概要: Fine-grained Dynamic Network for Generic Event Boundary Detection
- arxiv url: http://arxiv.org/abs/2407.04274v1
- Date: Fri, 5 Jul 2024 06:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:31:15.227631
- Title: Fine-grained Dynamic Network for Generic Event Boundary Detection
- Title(参考訳): イベント境界検出のためのきめ細かい動的ネットワーク
- Authors: Ziwei Zheng, Lijun He, Le Yang, Fan Li,
- Abstract要約: そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
- 参考スコア(独自算出の注目度): 9.17191007695011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic event boundary detection (GEBD) aims at pinpointing event boundaries naturally perceived by humans, playing a crucial role in understanding long-form videos. Given the diverse nature of generic boundaries, spanning different video appearances, objects, and actions, this task remains challenging. Existing methods usually detect various boundaries by the same protocol, regardless of their distinctive characteristics and detection difficulties, resulting in suboptimal performance. Intuitively, a more intelligent and reasonable way is to adaptively detect boundaries by considering their special properties. In light of this, we propose a novel dynamic pipeline for generic event boundaries named DyBDet. By introducing a multi-exit network architecture, DyBDet automatically learns the subnet allocation to different video snippets, enabling fine-grained detection for various boundaries. Besides, a multi-order difference detector is also proposed to ensure generic boundaries can be effectively identified and adaptively processed. Extensive experiments on the challenging Kinetics-GEBD and TAPOS datasets demonstrate that adopting the dynamic strategy significantly benefits GEBD tasks, leading to obvious improvements in both performance and efficiency compared to the current state-of-the-art.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、人間が自然に知覚するイベント境界をピンポイントすることを目的としており、ロングフォームビデオを理解する上で重要な役割を果たす。
さまざまなビデオの外観、オブジェクト、アクションにまたがる、汎用境界の多様性を考えると、この作業は依然として困難である。
既存の手法では, 特性や検出の難しさに関わらず, 様々な境界を同じプロトコルで検出する。
直感的には、よりインテリジェントで合理的な方法は、その特別な性質を考慮して境界を適応的に検出することである。
そこで我々はDyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは異なるビデオスニペットへのサブネット割り当てを自動的に学習し、様々な境界のきめ細かい検出を可能にする。
さらに、汎用境界を効果的に同定し、適応的に処理できるように、多次差分検出器も提案されている。
Kinetics-GEBD と TAPOS のデータセットに対する大規模な実験は、ダイナミック戦略の採用が GEBD タスクに大きく貢献することを示した。
関連論文リスト
- ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection [56.7599217711363]
顔偽造認識法は一度に1つの顔しか処理できない。
ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。
マルチフェイスフォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。
論文 参考訳(メタデータ) (2023-08-03T03:37:13Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文 参考訳(メタデータ) (2022-10-11T16:09:13Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Progressive Attention on Multi-Level Dense Difference Maps for Generic
Event Boundary Detection [35.16241630620967]
ジェネリックイベント境界検出はビデオ理解において重要な課題である。
本稿では、イベント境界の多様性と複雑な意味論に取り組むために、効果的でエンドツーエンドの学習可能なフレームワーク(DDM-Net)を提案する。
論文 参考訳(メタデータ) (2021-12-09T09:00:05Z) - UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event
Boundary Detection [27.29169136392871]
ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的としている。
本稿では,時間的自己相似行列(TSM)を映像表現として,教師なし・教師なしのEBDのための新しいフレームワークを提案する。
我々のフレームワークは、教師なしと教師なしの両方に応用でき、最先端のパフォーマンスを大きなマージンで達成できる。
論文 参考訳(メタデータ) (2021-11-29T18:50:39Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Robust Facial Landmark Detection by Multi-order Multi-constraint Deep
Networks [35.19368350816032]
より強力な特徴相関と制約学習のためのマルチオーダーマルチ制約ディープネットワーク(MMDN)を提案する。
Inlicit Multi-order Correlated Geometry-Aware (IMCG) モデルを提案し,多次空間相関と多次チャネル相関を導入する。
説明確率に基づく境界適応回帰(EPBR)法は、グローバルな形状制約を強化するために開発されている。
論文 参考訳(メタデータ) (2020-12-09T09:11:47Z) - Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation [62.29076080124199]
本稿では,クロスドメインオブジェクト検出のための特徴適応手法を提案する。
粗粒度では、アテンション機構を採用して前景領域を抽出し、その辺縁分布に応じて整列する。
粒度の細かい段階では、同じカテゴリのグローバルプロトタイプと異なるドメインとの距離を最小化することにより、前景の条件分布アライメントを行う。
論文 参考訳(メタデータ) (2020-03-23T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。