論文の概要: KD-CVG: A Knowledge-Driven Approach for Creative Video Generation
- arxiv url: http://arxiv.org/abs/2604.21362v1
- Date: Thu, 23 Apr 2026 07:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.358776
- Title: KD-CVG: A Knowledge-Driven Approach for Creative Video Generation
- Title(参考訳): KD-CVG - 創造的ビデオ生成のための知識駆動型アプローチ
- Authors: Linkai Liu, Wei Feng, Xi Zhao, Shen Zhang, Xingye Chen, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Yuchen Zhou, Zipeng Guo, Chao Gou,
- Abstract要約: 本稿では,既存モデルの知識制限を克服するための知識駆動型アプローチを開発する。
Semantic-Aware Retrieval (SAR) と Multimodal Knowledge Reference (MKR) の2つの主要なモジュールで構成されている。
実験では、KD-CVGがセマンティックアライメントと運動適応性を達成する上で優れた性能を示した。
- 参考スコア(独自算出の注目度): 21.830332945613637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creative Generation (CG) leverages generative models to automatically produce advertising content that highlights product features, and it has been a significant focus of recent research. However, while CG has advanced considerably, most efforts have concentrated on generating advertising text and images, leaving Creative Video Generation (CVG) relatively underexplored. This gap is largely due to two major challenges faced by Text-to-Video (T2V) models: (a) \textbf{ambiguous semantic alignment}, where models struggle to accurately correlate product selling points with creative video content, and (b) \textbf{inadequate motion adaptability}, resulting in unrealistic movements and distortions. To address these challenges, we develop a comprehensive Advertising Creative Knowledge Base (ACKB) as a foundational resource and propose a knowledge-driven approach (KD-CVG) to overcome the knowledge limitations of existing models. KD-CVG consists of two primary modules: Semantic-Aware Retrieval (SAR) and Multimodal Knowledge Reference (MKR). SAR utilizes the semantic awareness of graph attention networks and reinforcement learning feedback to enhance the model's comprehension of the connections between selling points and creative videos. Building on this, MKR incorporates semantic and motion priors into the T2V model to address existing knowledge gaps. Extensive experiments have demonstrated KD-CVG's superior performance in achieving semantic alignment and motion adaptability, validating its effectiveness over other state-of-the-art methods. The code and dataset will be open source at https://kdcvg.github.io/KDCVG/.
- Abstract(参考訳): クリエイティブ・ジェネレーション(CG)は、生成モデルを利用して、製品の特徴を強調する広告コンテンツを自動生成する。
しかし、CGはかなり進歩しているが、ほとんどの努力は広告用テキストや画像の作成に集中しており、クリエイティブ・ビデオ・ジェネレーション(CVG)は比較的過小評価されている。
このギャップは、主にテキスト・ツー・ビデオ(T2V)モデルが直面している2つの大きな課題に起因している。
a) \textbf{ambiguous semantic alignment}, ここでは、モデルが製品販売ポイントとクリエイティブなビデオコンテンツとを正確に関連付けるのに苦労し、
(b) textbf{inadequate Motion Adaptability} は非現実的な動きと歪みをもたらす。
これらの課題に対処するため,既存のモデルの知識制限を克服する知識駆動型アプローチ (KD-CVG) を提案する。
KD-CVGはSAR(Semantic-Aware Retrieval)とMKR(Multimodal Knowledge Reference)の2つの主要なモジュールで構成されている。
SARは、グラフ注意ネットワークのセマンティックな認識と強化学習フィードバックを利用して、販売ポイントとクリエイティブビデオの関連性に関するモデルの理解を深める。
これに基づいて、MKRは、既存の知識ギャップに対処するために、意味と動きの先行をT2Vモデルに組み込む。
広範囲な実験により、KD-CVGはセマンティックアライメントと運動適応性を達成し、他の最先端手法よりも有効であることを示した。
コードとデータセットはhttps://kdcvg.github.io/KDCVG/でオープンソース化される。
関連論文リスト
- Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs [13.238196682784562]
CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos) は,大規模言語モデルにおける視覚知覚と言語生成のクリティカルインターフェースをターゲットとした,新しいフレームワークである。
我々のフレームワークは、明示的な正規化ではなく、暗黙の時間的コヒーレンスモデリングによって柔軟性を達成し、画像理解においても大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-01T14:48:27Z) - T2VUnlearning: A Concept Erasing Method for Text-to-Video Diffusion Models [10.59080421751043]
テキスト・ツー・ビデオ拡散モデル(T2V)の最近の進歩は、生成されたビデオの品質を大幅に向上させた。
明示的または有害なコンテンツを生成する能力は、誤用や潜在的権利侵害に関連する新しい課題をもたらす。
未学習に基づく概念消去を解決策として提案する。
論文 参考訳(メタデータ) (2025-05-23T06:56:32Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection [12.780661306169474]
我々はtextbfConditional Dropout と textbfLAnguage-driven(textbfCoLA) フレームワークを紹介する。
このフレームワークは、ノイズの多い入力の影響を軽減し、その性能を完全なモダリティで保存する。
モダリティ完全条件とモダリティ欠如条件の両方の下で、最先端のデュアルモーダルSODモデルより優れている。
論文 参考訳(メタデータ) (2024-07-09T11:49:24Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Generative Model-based Feature Knowledge Distillation for Action
Recognition [11.31068233536815]
本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。
提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
論文 参考訳(メタデータ) (2023-12-14T03:55:29Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。