論文の概要: DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection
- arxiv url: http://arxiv.org/abs/2308.15109v2
- Date: Sat, 2 Mar 2024 12:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:45:01.580253
- Title: DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection
- Title(参考訳): DiffusionVMR:ジョイントビデオモーメント検索とハイライト検出のための拡散モデル
- Authors: Henghao Zhao, Kevin Qinghong Lin, Rui Yan and Zechao Li
- Abstract要約: DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
- 参考スコア(独自算出の注目度): 38.12212015133935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval and highlight detection have received attention in the
current era of video content proliferation, aiming to localize moments and
estimate clip relevances based on user-specific queries. Given that the video
content is continuous in time, there is often a lack of clear boundaries
between temporal events in a video. This boundary ambiguity makes it
challenging for the model to learn text-video clip correspondences, resulting
in the subpar performance of existing methods in predicting target segments. To
alleviate this problem, we propose to solve the two tasks jointly from the
perspective of denoising generation. Moreover, the target boundary can be
localized clearly by iterative refinement from coarse to fine. Specifically, a
novel framework, DiffusionVMR, is proposed to redefine the two tasks as a
unified conditional denoising generation process by combining the diffusion
model. During training, Gaussian noise is added to corrupt the ground truth,
with noisy candidates produced as input. The model is trained to reverse this
noise addition process. In the inference phase, DiffusionVMR initiates directly
from Gaussian noise and progressively refines the proposals from the noise to
the meaningful output. Notably, the proposed DiffusionVMR inherits the
advantages of diffusion models that allow for iteratively refined results
during inference, enhancing the boundary transition from coarse to fine.
Furthermore, the training and inference of DiffusionVMR are decoupled. An
arbitrary setting can be used in DiffusionVMR during inference without
consistency with the training phase. Extensive experiments conducted on five
widely-used benchmarks (i.e., QVHighlight, Charades-STA, TACoS,
YouTubeHighlights and TVSum) across two tasks (moment retrieval and/or
highlight detection) demonstrate the effectiveness and flexibility of the
proposed DiffusionVMR.
- Abstract(参考訳): ビデオモーメント検索とハイライト検出は、ビデオコンテンツの拡散の現在の時代に注目され、モーメントをローカライズし、ユーザ固有のクエリに基づいてクリップの関連性を推定することを目的としている。
ビデオコンテンツが時間内に連続していることを考えると、ビデオ内の時間的イベントの間には明確な境界がないことが多い。
この境界曖昧性により、モデルがテキストとビデオの対応を学習することが難しくなり、既存の手法による目標セグメントの予測性能が低下する。
この問題を軽減するため,我々は2つの課題を協調的に解くことを提案する。
さらに、粗粒から微粒への反復精細化により、目標境界を明瞭に局所化することができる。
具体的には、拡散モデルを組み合わせることにより、2つのタスクを統一された条件記述生成プロセスとして再定義する新しいフレームワークDiffusionVMRを提案する。
訓練中、ガウスノイズは基底真理を腐敗させるために追加され、ノイズ候補が入力として生成される。
モデルは、このノイズ付加プロセスを逆転するように訓練される。
推論フェーズでは、DiffusionVMRはガウスノイズから直接開始し、ノイズから有意義な出力への提案を徐々に洗練する。
特に、DiffusionVMRは、推論中に反復的に洗練された結果が得られる拡散モデルの利点を継承し、粗い値から細かい値への境界遷移を高める。
さらに、DiffusionVMRのトレーニングと推論を分離する。
任意の設定はDiffusionVMRでトレーニングフェーズと整合性のない推論で使用することができる。
広く使われている5つのベンチマーク(QVHighlight、Charades-STA、TACoS、YouTubeHighlights、TVSum)で実施された大規模な実験は、提案したDiffusionVMRの有効性と柔軟性を示している。
関連論文リスト
- Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。
各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。
その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:39:23Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。