論文の概要: Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.20647v1
- Date: Tue, 25 Nov 2025 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.64599
- Title: Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
- Title(参考訳): 決定点プロセス誘導ポリシー最適化による多視点映像生成
- Authors: Tahira Kazimi, Connor Dunlop, Pinar Yanardag,
- Abstract要約: 多様なビデオ生成のための新しいフレームワークであるDPP-GRPOを紹介する。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、視覚的外観、カメラモーション、シーン構造など様々な世代にまたがる。
VBench, VideoScore, 人選好研究などの最先端のベンチマークでは, 映像の多様性が常に向上していることが示されている。
- 参考スコア(独自算出の注目度): 11.413630896037576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.
- Abstract(参考訳): 最近のテキスト・ツー・ビデオ(T2V)拡散モデルは、印象的な品質と迅速なアライメントを実現しているが、単一のテキスト・プロンプトから複数の動画をサンプリングする際、しばしば低多様性の出力を生成する。
この課題は、設定レベルの政策最適化問題として定式化することで解決し、与えられたプロンプトに対して、多種多様な妥当な結果をカバーする政策を訓練することを目的としている。
そこで本稿では,DPP(Determinantal Point Processes)とGRPO(Group Relative Policy Optimization)理論を組み合わせて,多様な世代に対して明確な報酬を課す,多様なビデオ生成のための新しいフレームワークであるDPP-GRPOを紹介する。
我々の目的は、(DPPを介して)冗長なサンプルに対してリターンを減少させ、(GRPOを介して)候補集合に対してグループ的にフィードバックを提供することによって、多様性を明示的な信号に変える。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、迅速な忠実さや知覚的品質を犠牲にすることなく、視覚的外観、カメラの動き、シーン構造を多様な世代にわたって促進する。
We implement our method on WAN and CogVideoX, and show that our method improves video diversity on state-of-the-art benchmarks, VBench, VideoScore, and human preference study。
さらに、私たちのコードと、将来の研究をサポートするために3万の多様なプロンプトのベンチマークデータセットをリリースしています。
関連論文リスト
- Ctrl-VI: Controllable Video Synthesis via Variational Inference [62.79016502243712]
Ctrl-VIは、特定の要素に対して高い制御性を持つサンプルを生成するビデオ合成法である。
本手法は, 従来よりも制御性, 多様性, 3次元の整合性を向上したサンプルを生成する。
論文 参考訳(メタデータ) (2025-10-09T01:48:16Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval [23.75587275795415]
本稿では,ビデオ内のさまざまなコンテキストを一定数のプロトタイプにエンコードするプロトタイプPRVRフレームワークを提案する。
ビデオコンテキストを正確に符号化しながら、テキストクエリを介してプロトタイプを検索できるように、クロスモーダルおよびユニモーダル再構成タスクを実装した。
論文 参考訳(メタデータ) (2025-04-17T15:43:29Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。