Fugu-MT 論文翻訳(概要): Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval

論文の概要: Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval

arxiv url: http://arxiv.org/abs/2401.13329v2
Date: Mon, 29 Jan 2024 10:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 20:00:08.129135
Title: Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval
Title（参考訳）: 見えないクロスドメインビデオモーメント検索のための生成的ビデオ拡散
Authors: Dezhao Luo, Shaogang Gong, Jiabo Huang, Hailin Jin, Yang Liu
Abstract要約: ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
参考スコア（独自算出の注目度）: 58.17315970207874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Moment Retrieval (VMR) requires precise modelling of fine-grained moment-text associations to capture intricate visual-language relationships. Due to the lack of a diverse and generalisable VMR dataset to facilitate learning scalable moment-text associations, existing methods resort to joint training on both source and target domain videos for cross-domain applications. Meanwhile, recent developments in vision-language multimodal models pre-trained on large-scale image-text and/or video-text pairs are only based on coarse associations (weakly labelled). They are inadequate to provide fine-grained moment-text correlations required for cross-domain VMR. In this work, we solve the problem of unseen cross-domain VMR, where certain visual and textual concepts do not overlap across domains, by only utilising target domain sentences (text prompts) without accessing their videos. To that end, we explore generative video diffusion for fine-grained editing of source videos controlled by the target sentences, enabling us to simulate target domain videos. We address two problems in video editing for optimising unseen domain VMR: (1) generation of high-quality simulation videos of different moments with subtle distinctions, (2) selection of simulation videos that complement existing source training videos without introducing harmful noise or unnecessary repetitions. On the first problem, we formulate a two-stage video diffusion generation controlled simultaneously by (1) the original video structure of a source video, (2) subject specifics, and (3) a target sentence prompt. This ensures fine-grained variations between video moments. On the second problem, we introduce a hybrid selection mechanism that combines two quantitative metrics for noise filtering and one qualitative metric for leveraging VMR prediction on simulation video selection.
Abstract（参考訳）: ビデオモーメント検索(vmr)は、複雑な視覚言語関係を捉えるために、きめ細かいモーメントテキスト関連を正確にモデル化する必要がある。スケーラブルなモーメントテキストアソシエーションの学習を容易にするために、多種多様な汎用的なVMRデータセットが欠如しているため、既存の手法では、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方で共同トレーニングを行っている。一方、大規模画像テキストおよび/またはビデオテキストペアで事前訓練された視覚言語マルチモーダルモデルの最近の発展は、粗い関連性(弱ラベル付き)にのみ基づいている。クロスドメインvmrに必要な細かいモーメントテキスト相関を提供するには不十分です。本研究では,対象領域の文(テキストプロンプト)をビデオにアクセスせずに利用することにより,特定の視覚概念やテキスト概念がドメイン間で重複しない,未認識のクロスドメインvmrの問題を解決する。そこで本研究では,対象の文によって制御されるソースビデオのきめ細かい編集のための生成ビデオ拡散について検討し,対象のドメインビデオのシミュレートを可能にする。未確認領域VMRを最適化するためのビデオ編集における2つの問題に対処する:(1)微妙な区別を伴う異なるモーメントの高品質なシミュレーションビデオの生成、(2)有害なノイズや不要な繰り返しを伴わずに既存のソーストレーニングビデオを補完するシミュレーションビデオの選択。最初の問題として、(1)ソースビデオのオリジナルビデオ構造、(2)主題特定、(3)ターゲット文プロンプトによって同時に制御される2段階ビデオ拡散生成を定式化する。これにより、ビデオモーメント間の微妙なバリエーションが保証される。第2の課題として,ノイズフィルタリングのための2つの定量的指標と,シミュレーションビデオ選択におけるvmr予測を活用するための1つの定性指標を組み合わせたハイブリッド選択機構を提案する。

関連論文リスト

REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing [56.992916488077476]
本研究では,長い入力ビデオから抽出した埋め込みビデオ挿入を伴うコヒーレントな物語を特徴付けるショートを生成するための新しいビデオ編集モデルについて検討する。本稿では,大規模言語モデルにおいて,コヒーレントなナラティブを維持しつつ,多モーダルなリソースを引用できる新しい検索組込み生成フレームワークを提案する。提案手法は,コヒーレントなナラティブを維持しつつ,短いビデオクリップを効果的に挿入できることを示す。
論文参考訳（メタデータ） (2025-05-24T21:36:49Z)
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。 VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-11-22T18:31:47Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文参考訳（メタデータ） (2024-06-03T21:14:53Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文参考訳（メタデータ） (2023-12-07T06:53:25Z)
Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文参考訳（メタデータ） (2023-11-30T21:59:05Z)
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T08:12:58Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文参考訳（メタデータ） (2023-05-29T17:38:18Z)
VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文参考訳（メタデータ） (2023-03-21T17:51:23Z)
Domain Adaptive Video Segmentation via Temporal Consistency Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。 2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文参考訳（メタデータ） (2021-07-23T02:50:42Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文参考訳（メタデータ） (2021-03-09T08:17:17Z)
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文参考訳（メタデータ） (2020-08-06T04:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。