論文の概要: Boundary-Recovering Network for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2408.09354v1
- Date: Sun, 18 Aug 2024 04:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:09:49.053633
- Title: Boundary-Recovering Network for Temporal Action Detection
- Title(参考訳): 時間的行動検出のための境界回復ネットワーク
- Authors: Jihwan Kim, Jaehyun Choi, Yerim Jeon, Jae-Pil Heo,
- Abstract要約: 時間的行動の大規模変動は、時間的行動検出(TAD)における最も大きな問題の1つである
消滅する境界問題に対処するために,境界回復ネットワーク(BRN)を提案する。
BRNは、マルチスケール特徴を同じ時間長に補間することにより、スケールディメンションと呼ばれる新しい軸を導入することで、スケールタイム特徴を構築する。
- 参考スコア(独自算出の注目度): 20.517156879086535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action detection (TAD) is challenging, yet fundamental for real-world video applications. Large temporal scale variation of actions is one of the most primary difficulties in TAD. Naturally, multi-scale features have potential in localizing actions of diverse lengths as widely used in object detection. Nevertheless, unlike objects in images, actions have more ambiguity in their boundaries. That is, small neighboring objects are not considered as a large one while short adjoining actions can be misunderstood as a long one. In the coarse-to-fine feature pyramid via pooling, these vague action boundaries can fade out, which we call 'vanishing boundary problem'. To this end, we propose Boundary-Recovering Network (BRN) to address the vanishing boundary problem. BRN constructs scale-time features by introducing a new axis called scale dimension by interpolating multi-scale features to the same temporal length. On top of scale-time features, scale-time blocks learn to exchange features across scale levels, which can effectively settle down the issue. Our extensive experiments demonstrate that our model outperforms the state-of-the-art on the two challenging benchmarks, ActivityNet-v1.3 and THUMOS14, with remarkably reduced degree of the vanishing boundary problem.
- Abstract(参考訳): 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。
行動の時間スケールの大きな変動は、TADの最も大きな問題の1つである。
自然界において、多スケールの特徴は、物体検出に広く用いられるように、様々な長さの作用を局所化する可能性がある。
それでも、画像のオブジェクトとは異なり、アクションは境界においてよりあいまいである。
すなわち、小さな隣接した物体は大きな物体とはみなされないが、短い隣接した行動は長い物体と誤解されることがある。
疎水化による粗大な特徴ピラミッドでは、これらのあいまいな作用境界がフェードアウトし、これを「消滅境界問題」と呼ぶ。
そこで本研究では,消滅する境界問題に対処するため,境界回復ネットワーク(BRN)を提案する。
BRNは、マルチスケール特徴を同じ時間長に補間することにより、スケールディメンションと呼ばれる新しい軸を導入することで、スケールタイム特徴を構築する。
スケールタイム機能に加えて、スケールタイムブロックはスケールレベルの機能交換を学ぶことで、この問題を効果的に解決することができる。
大規模な実験により,我々のモデルは2つの挑戦的ベンチマークである ActivityNet-v1.3 と THUMOS14 よりも優れており,消滅する境界問題の程度は著しく減少していることがわかった。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文 参考訳(メタデータ) (2024-07-05T06:02:46Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - Progressive Attention on Multi-Level Dense Difference Maps for Generic
Event Boundary Detection [35.16241630620967]
ジェネリックイベント境界検出はビデオ理解において重要な課題である。
本稿では、イベント境界の多様性と複雑な意味論に取り組むために、効果的でエンドツーエンドの学習可能なフレームワーク(DDM-Net)を提案する。
論文 参考訳(メタデータ) (2021-12-09T09:00:05Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。