論文の概要: Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2604.03653v1
- Date: Sat, 04 Apr 2026 09:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.701876
- Title: Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval
- Title(参考訳): 拡散誘導型レジスターは、部分的に関連性のあるビデオ検索を可能にする
- Authors: Jun Li, Xuhang Lou, Jinpeng Wang, Yuting Wang, Yaowei Wang, Shu-Tao Xia, Bin Chen,
- Abstract要約: 部分関連ビデオ検索(PRVR)は、部分イベントのみを記述するテキストクエリに基づいて、未トリミングされたビデオを取得することを目的としている。
本稿では,粗大な表現学習パラダイムを取り入れたDreamPRVRを提案する。
- 参考スコア(独自算出の注目度): 74.31577742865488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) aims to retrieve untrimmed videos based on text queries that describe only partial events. Existing methods suffer from incomplete global contextual perception, struggling with query ambiguity and local noise induced by spurious responses. To address these issues, we propose DreamPRVR, which adopts a coarse-to-fine representation learning paradigm. The model first generates global contextual semantic registers as coarse-grained highlights spanning the entire video and then concentrates on fine-grained similarity optimization for precise cross-modal matching. Concretely, these registers are generated by initializing from the video-centric distribution produced by a probabilistic variational sampler and then iteratively refined via a text-supervised truncated diffusion model. During this process, textual semantic structure learning constructs a well-formed textual latent space, enhancing the reliability of global perception. The registers are then adaptively fused with video tokens through register-augmented Gaussian attention blocks, enabling context-aware feature learning. Extensive experiments show that DreamPRVR outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/CVPR26-DreamPRVR.
- Abstract(参考訳): 部分関連ビデオ検索(PRVR)は、部分イベントのみを記述するテキストクエリに基づいて、未トリミングされたビデオを取得することを目的としている。
既存の手法は、不完全なグローバルな文脈認識に悩まされ、クエリのあいまいさと、刺激的な応答によって引き起こされる局所雑音に悩まされる。
これらの課題に対処するために,粗大な表現学習パラダイムを採用したDreamPRVRを提案する。
モデルはまず、ビデオ全体にわたる粗粒度ハイライトとしてグローバルな文脈意味レジスタを生成し、その後、正確なクロスモーダルマッチングのための微粒度類似度最適化に集中する。
具体的には、確率的変分サンプリング器によって生成されたビデオ中心分布から初期化して、テキスト教師付きトランケート拡散モデルにより反復的に洗練することにより、これらのレジスタを生成する。
この過程で、テキスト意味構造学習は、十分に構造化されたテキスト潜在空間を構築し、グローバルな知覚の信頼性を高める。
レジスタは、レジスタ拡張されたガウスアテンションブロックを通じてビデオトークンと適応的に融合し、コンテキスト対応の機能学習を可能にする。
大規模な実験により、DreamPRVRは最先端の手法よりも優れています。
コードはhttps://github.com/lijun2005/CVPR26-DreamPRVRで公開されている。
関連論文リスト
- Mitigating Semantic Collapse in Partially Relevant Video Retrieval [41.715994314208025]
関連のあるビデオ検索は、コンテンツの一部だけがテキストクエリにマッチするビデオを探す。
既存の方法は、すべての注釈付きテキストビデオ対を正のものとして扱い、その他の全てを負のものとして扱う。
本稿では,テキストとビデオの埋め込み空間において,意味的崩壊(semantic collapse)と呼ばれる,上記の問題に対処する。
論文 参考訳(メタデータ) (2025-10-31T12:39:20Z) - Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning [29.427720184101474]
関連のあるビデオ検索は、あるクエリに関連するビデオを取得することを目的としている。
中心となる課題は、突発的なセマンティックな相関に対して、堅牢なクエリとビデオのアライメントを学ぶことだ。
データの不確実性を明示的にモデル化するRobust Alignment Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:30:43Z) - Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval [0.0]
部分関連ビデオ検索(PRVR)は、特定のセグメントが所定のテキストクエリに関連するビデオを取得することを目的としている。
テキストとビデオの内容のあいまいさは、その概念的スコープに基づいて指摘する。
この曖昧さをモデル学習プロセスに組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:44:45Z) - Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval [54.22321767540878]
ビデオモーメント検索(VMR)は、未トリミングビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としている。
既存のメソッドのトレーニングは、多様で汎用的なVMRデータセットの欠如によって制限される。
生成的ビデオ拡散を探索するFVEと呼ばれる細粒度ビデオ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。