論文の概要: Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2401.13329v3
- Date: Fri, 21 Feb 2025 12:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:11.312033
- Title: Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval
- Title(参考訳): 未知のセマンティックビデオモーメント検索のための生成的ビデオ拡散
- Authors: Dezhao Luo, Shaogang Gong, Jiabo Huang, Hailin Jin, Yang Liu,
- Abstract要約: ビデオモーメント検索(VMR)は、未トリミングビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としている。
既存のメソッドのトレーニングは、多様で汎用的なVMRデータセットの欠如によって制限される。
生成的ビデオ拡散を探索するFVEと呼ばれる細粒度ビデオ編集フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.22321767540878
- License:
- Abstract: Video moment retrieval (VMR) aims to locate the most likely video moment(s) corresponding to a text query in untrimmed videos. Training of existing methods is limited by the lack of diverse and generalisable VMR datasets, hindering their ability to generalise moment-text associations to queries containing novel semantic concepts (unseen both visually and textually in a training source domain). For model generalisation to novel semantics, existing methods rely heavily on assuming to have access to both video and text sentence pairs from a target domain in addition to the source domain pair-wise training data. This is neither practical nor scalable. In this work, we introduce a more generalisable approach by assuming only text sentences describing new semantics are available in model training without having seen any videos from a target domain. To that end, we propose a Fine-grained Video Editing framework, termed FVE, that explores generative video diffusion to facilitate fine-grained video editing from the seen source concepts to the unseen target sentences consisting of new concepts. This enables generative hypotheses of unseen video moments corresponding to the novel concepts in the target domain. This fine-grained generative video diffusion retains the original video structure and subject specifics from the source domain while introducing semantic distinctions of unseen novel vocabularies in the target domain. A critical challenge is how to enable this generative fine-grained diffusion process to be meaningful in optimising VMR, more than just synthesising visually pleasing videos. We solve this problem by introducing a hybrid selection mechanism that integrates three quantitative metrics to selectively incorporate synthetic video moments (novel video hypotheses) as enlarged additions to the original source training data, whilst minimising potential ...
- Abstract(参考訳): ビデオモーメント検索(VMR)は、未トリミングビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としている。
既存のメソッドのトレーニングは、多様で汎用的なVMRデータセットの欠如によって制限されており、新しいセマンティックな概念を含むクエリ(トレーニングソースドメインで視覚的にもテキスト的にも)にモーメントテキスト関連を一般化する能力を妨げている。
新たなセマンティクスへのモデル一般化では、既存の手法は、ソースドメインのペアワイドトレーニングデータに加えて、ターゲットドメインからビデオとテキストの文ペアの両方にアクセスできることに大きく依存している。
これは実用的でもスケーラブルでもない。
本研究では,対象領域からビデオを見ることなく,新たな意味論を記述した文章のみをモデルトレーニングで利用できると仮定することで,より汎用的なアプローチを提案する。
そこで本研究では,FVEと呼ばれる細粒度ビデオ編集フレームワークを提案する。このフレームワークは,画像のソース概念から新たな概念からなる未知のターゲット文への微粒度ビデオ編集を容易にするために,生成的ビデオ拡散を探索する。
これにより、ターゲット領域における新しい概念に対応する未確認映像モーメントの生成仮説が実現される。
このきめ細かい生成ビデオ拡散は、対象領域における未知の新規語彙のセマンティックな区別を導入しつつ、元のビデオ構造と主題特定をソース領域から保持する。
重要な課題は、この生成的きめ細かい拡散プロセスが、単に映像を合成するだけでなく、VMRの最適化に意味を持つようにする方法である。
この問題を解決するために,3つの定量的メトリクスを統合したハイブリッドセレクション機構を導入し,オリジナルソーストレーニングデータへの拡張された追加として合成ビデオモーメント(ノーベルビデオ仮説)を選択的に組み込むとともに,ポテンシャルを最小化する。
関連論文リスト
- VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。