論文の概要: Denoise-then-Retrieve: Text-Conditioned Video Denoising for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2508.11313v1
- Date: Fri, 15 Aug 2025 08:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.801936
- Title: Denoise-then-Retrieve: Text-Conditioned Video Denoising for Video Moment Retrieval
- Title(参考訳): Denoise-then-Retrieve: ビデオモーメント検索のためのテキスト記述型ビデオDenoising
- Authors: Weijia Liu, Jiuxin Cao, Bo Miao, Zhiheng Fu, Xuelin Zhu, Jiawei Ge, Bo Liu, Mehwish Nasim, Ajmal Mian,
- Abstract要約: 現在のテキスト駆動のVideo Moment Retrieval(VMR)メソッドは、無関係なものを含むすべてのビデオクリップをエンコードし、マルチモーダルアライメントを妨害し、最適化を妨げる。
そこで本稿では,ビデオからテキスト非関連クリップを明示的にフィルタリングし,目的モーメントを精製したマルチモーダル表現を用いて検索する手法を提案する。
- 参考スコア(独自算出の注目度): 21.98012334983341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current text-driven Video Moment Retrieval (VMR) methods encode all video clips, including irrelevant ones, disrupting multimodal alignment and hindering optimization. To this end, we propose a denoise-then-retrieve paradigm that explicitly filters text-irrelevant clips from videos and then retrieves the target moment using purified multimodal representations. Following this paradigm, we introduce the Denoise-then-Retrieve Network (DRNet), comprising Text-Conditioned Denoising (TCD) and Text-Reconstruction Feedback (TRF) modules. TCD integrates cross-attention and structured state space blocks to dynamically identify noisy clips and produce a noise mask to purify multimodal video representations. TRF further distills a single query embedding from purified video representations and aligns it with the text embedding, serving as auxiliary supervision for denoising during training. Finally, we perform conditional retrieval using text embeddings on purified video representations for accurate VMR. Experiments on Charades-STA and QVHighlights demonstrate that our approach surpasses state-of-the-art methods on all metrics. Furthermore, our denoise-then-retrieve paradigm is adaptable and can be seamlessly integrated into advanced VMR models to boost performance.
- Abstract(参考訳): 現在のテキスト駆動のVideo Moment Retrieval(VMR)メソッドは、無関係なものを含むすべてのビデオクリップをエンコードし、マルチモーダルアライメントを妨害し、最適化を妨げる。
そこで本研究では,ビデオからテキスト非関連クリップを明示的にフィルタリングし,目的モーメントを精製したマルチモーダル表現を用いて検索する手法を提案する。
本稿では,TCD(Text-Conditioned Denoising)とTRF(Text-Reconstruction Feedback)モジュールからなるDRNet(Denoise-then-Retrieve Network)を紹介する。
TCDは、クロスアテンションと構造化された状態空間ブロックを統合して、ノイズの多いクリップを動的に識別し、マルチモーダルビデオ表現を浄化するためのノイズマスクを生成する。
TRFはさらに、精製されたビデオ表現から埋め込みされた単一のクエリを蒸留し、それをテキスト埋め込みと整合させ、トレーニング中の聴覚の補助的な監視役として機能させる。
最後に、正確なVMRのための純化ビデオ表現にテキスト埋め込みを用いた条件付き検索を行う。
Charades-STA と QVHighlights の実験は、我々のアプローチがすべてのメトリクスの最先端の手法を超えることを示した。
さらに,本パラダイムは適応可能であり,高度VMRモデルにシームレスに統合して性能を向上させることができる。
関連論文リスト
- Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.710127132217526]
本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。
VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。
フルジェネレーションよりも25~40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文 参考訳(メタデータ) (2025-03-21T21:13:02Z) - CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding [44.382937324454254]
既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。
本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。
VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
論文 参考訳(メタデータ) (2024-10-11T07:42:36Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation [11.556147036111222]
本稿では、ノイズやテキストを含む2つの入力プロンプトを改善し、拡散に基づくテキスト・ビデオ生成を改善することを目的とする。
テキスト・ツー・ビデオ・モデルを改善するためのトレーニング不要な Prompt Optimization Suite であるPOS を提案する。
論文 参考訳(メタデータ) (2023-11-02T02:33:09Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Restore from Restored: Video Restoration with Pseudo Clean Video [28.057705167363327]
自己管理型ビデオ復号化手法"restore-from-restored"を提案する。
テストフェーズ中に擬似クリーンビデオを用いて事前学習ネットワークを微調整する。
提案した自己超越型学習アルゴリズムを用いて、微調整ビデオ復調ネットワークの復元性能を解析する。
論文 参考訳(メタデータ) (2020-03-09T17:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。