論文の概要: Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos
- arxiv url: http://arxiv.org/abs/2008.08257v1
- Date: Wed, 19 Aug 2020 04:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 12:27:11.150306
- Title: Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos
- Title(参考訳): ビデオにおける弱修正モーメント検索のための正規化2分岐提案ネットワーク
- Authors: Zhu Zhang, Zhijie Lin, Zhou Zhao, Jieming Zhu and Xiuqiang He
- Abstract要約: ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
- 参考スコア(独自算出の注目度): 108.55320735031721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval aims to localize the target moment in an video
according to the given sentence. The weak-supervised setting only provides the
video-level sentence annotations during training. Most existing weak-supervised
methods apply a MIL-based framework to develop inter-sample confrontment, but
ignore the intra-sample confrontment between moments with semantically similar
contents. Thus, these methods fail to distinguish the target moment from
plausible negative moments. In this paper, we propose a novel Regularized
Two-Branch Proposal Network to simultaneously consider the inter-sample and
intra-sample confrontments. Concretely, we first devise a language-aware filter
to generate an enhanced video stream and a suppressed video stream. We then
design the sharable two-branch proposal module to generate positive proposals
from the enhanced stream and plausible negative proposals from the suppressed
one for sufficient confrontment. Further, we apply the proposal regularization
to stabilize the training process and improve model performance. The extensive
experiments show the effectiveness of our method. Our code is released at here.
- Abstract(参考訳): ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
弱い教師付き設定は、トレーニング中にビデオレベルの文アノテーションのみを提供する。
既存の弱監督手法の多くは、MILベースのフレームワークを用いてサンプル間対位法を開発するが、意味的に類似した内容を持つモーメント間のサンプル間対位法を無視する。
したがって、これらの手法は目標モーメントと可算負モーメントとを区別することができない。
本稿では,サンプル間の対立とサンプル内対立を同時に考慮する,新しい正規化2分岐提案ネットワークを提案する。
具体的には,まず言語対応フィルタを考案し,拡張されたビデオストリームと抑制されたビデオストリームを生成する。
次に,2分岐提案モジュールを設計し,拡張ストリームから肯定的な提案を生成するとともに,抑圧された提案から肯定的な否定的提案を生成する。
さらに,提案手法をトレーニングプロセスの安定化とモデル性能の向上に応用する。
実験により,本手法の有効性が示された。
私たちのコードはここでリリースされます。
関連論文リスト
- DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Natural Language Video Localization with Learnable Moment Proposals [40.91060659795612]
学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T12:18:58Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z) - Look Closer to Ground Better: Weakly-Supervised Temporal Grounding of
Sentence in Video [53.69956349097428]
未トリミングビデオと問合せ文が与えられた場合、我々のゴールは、問合せ文に意味的に対応するビデオ内の時間セグメントをローカライズすることである。
本稿では,この問題を粗大な方法で解くための2段階モデルを提案する。
論文 参考訳(メタデータ) (2020-01-25T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。