論文の概要: Towards Diverse Temporal Grounding under Single Positive Labels
- arxiv url: http://arxiv.org/abs/2303.06545v1
- Date: Sun, 12 Mar 2023 02:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:23:19.246047
- Title: Towards Diverse Temporal Grounding under Single Positive Labels
- Title(参考訳): 単一正のラベルによる横時間接地に向けて
- Authors: Hao Zhou, Chongyang Zhang, Yanjun Chen, Chuanping Hu
- Abstract要約: 時間的接地は、記述されたイベントのモーメントを、言語クエリによって未トリミングされたビデオ内で検索することを目的としている。
単一正のラベルの条件下での1-vs-many最適化問題としてこのタスクを再構成する。
本稿では、主に正モーメント推定(PME)モジュールと多種多様なモーメント回帰(DMR)モジュールからなる、DTG-SPLと呼ばれる新しい時間的時間的接地フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.66024745733479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding aims to retrieve moments of the described event within an
untrimmed video by a language query. Typically, existing methods assume
annotations are precise and unique, yet one query may describe multiple moments
in many cases. Hence, simply taking it as a one-vs-one mapping task and
striving to match single-label annotations will inevitably introduce false
negatives during optimization. In this study, we reformulate this task as a
one-vs-many optimization problem under the condition of single positive labels.
The unlabeled moments are considered unobserved rather than negative, and we
explore mining potential positive moments to assist in multiple moment
retrieval. In this setting, we propose a novel Diverse Temporal Grounding
framework, termed DTG-SPL, which mainly consists of a positive moment
estimation (PME) module and a diverse moment regression (DMR) module. PME
leverages semantic reconstruction information and an expected positive
regularization to uncover potential positive moments in an online fashion.
Under the supervision of these pseudo positives, DMR is able to localize
diverse moments in parallel that meet different users. The entire framework
allows for end-to-end optimization as well as fast inference. Extensive
experiments on Charades-STA and ActivityNet Captions show that our method
achieves superior performance in terms of both single-label and multi-label
metrics.
- Abstract(参考訳): 時間的接地は、言語クエリによって、未トリミングビデオ内の記述されたイベントのモーメントを検索することを目的としている。
通常、既存のメソッドはアノテーションが正確でユニークであると仮定するが、あるクエリは多くの場合、複数のモーメントを記述することがある。
したがって、単に1-vs-oneマッピングタスクとして、シングルラベルアノテーションにマッチしようとすると、最適化中に必然的に偽陰性が発生する。
本研究では,この課題を単一正のラベル条件下での一対多最適化問題として再検討する。
ラベルのないモーメントは負ではなく観測されないと考えられており、複数のモーメント検索を支援するために潜在的正のモーメントをマイニングする。
本稿では、主に正モーメント推定(PME)モジュールと多種多様なモーメント回帰(DMR)モジュールからなる、DTG-SPLと呼ばれる新しい時間的時間的接地フレームワークを提案する。
PMEはセマンティック・リコンストラクション情報と期待された正の正の正の正の定式化を利用して、潜在的正の瞬間をオンラインで発見する。
これらの擬似陽性の監督の下で、DMRは異なるユーザに対応する様々な瞬間を同時にローカライズすることができる。
フレームワーク全体がエンドツーエンドの最適化と高速な推論を可能にします。
Charades-STA と ActivityNet Captions の広範囲な実験により,本手法はシングルラベルとマルチラベルの両方の指標において優れた性能を発揮することが示された。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points [28.607690605262878]
時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。
本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。
本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:08:03Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。