論文の概要: Boundary-Aware Proposal Generation Method for Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2309.13810v1
- Date: Mon, 25 Sep 2023 01:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:21:23.950205
- Title: Boundary-Aware Proposal Generation Method for Temporal Action
Localization
- Title(参考訳): 時間的行動ローカライゼーションのための境界認識型提案生成法
- Authors: Hao Zhang, Chunyan Feng, Jiahui Yang, Zheng Li, Caili Guo
- Abstract要約: TALは、トリミングされていないビデオの中で、アクションのカテゴリと時間的境界を見つけることを目的としている。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
コントラスト学習を用いた境界認識提案生成(BAPG)手法を提案する。
- 参考スコア(独自算出の注目度): 23.79359799496947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of Temporal Action Localization (TAL) is to find the categories and
temporal boundaries of actions in an untrimmed video. Most TAL methods rely
heavily on action recognition models that are sensitive to action labels rather
than temporal boundaries. More importantly, few works consider the background
frames that are similar to action frames in pixels but dissimilar in semantics,
which also leads to inaccurate temporal boundaries. To address the challenge
above, we propose a Boundary-Aware Proposal Generation (BAPG) method with
contrastive learning. Specifically, we define the above background frames as
hard negative samples. Contrastive learning with hard negative mining is
introduced to improve the discrimination of BAPG. BAPG is independent of the
existing TAL network architecture, so it can be applied plug-and-play to
mainstream TAL models. Extensive experimental results on THUMOS14 and
ActivityNet-1.3 demonstrate that BAPG can significantly improve the performance
of TAL.
- Abstract(参考訳): テンポラル・アクション・ローカライゼーション(TAL)の目的は、ビデオ内のアクションのカテゴリと時間的境界を見つけることである。
ほとんどの TAL 法は時間境界ではなく行動ラベルに敏感な行動認識モデルに大きく依存している。
さらに重要なことに、ピクセルのアクションフレームに似ているが意味的に類似している背景フレームを考える作品はほとんどない。
上記の課題に対処するため,コントラスト学習を伴う境界認識提案生成(BAPG)手法を提案する。
具体的には、上記の背景フレームをハード負のサンプルとして定義する。
BAPGの識別を改善するために, 強い負のマイニングによるコントラスト学習を導入する。
BAPGは既存のTALネットワークアーキテクチャとは独立しているため、主流のTALモデルにプラグイン・アンド・プレイを適用できる。
THUMOS14とActivityNet-1.3の大規模な実験結果から、BAPGはTALの性能を大幅に改善できることが示された。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。