論文の概要: BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2603.02816v2
- Date: Wed, 11 Mar 2026 07:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:43.962926
- Title: BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
- Title(参考訳): BrandFusion: テキスト・ビデオ・ジェネレーションにおけるシームレスブランド統合のためのマルチエージェントフレームワーク
- Authors: Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu,
- Abstract要約: テキスト・ツー・ビデオ(T2V)モデルにシームレスなブランド統合を導入する。
この課題は,迅速な忠実さの維持,ブランド認識性の確保,コンテキストによる自然な統合の実現という,3つの課題に直面する。
2つの相乗位相からなる新しいマルチエージェントフレームワークであるBrandFusionを提案する。
- 参考スコア(独自算出の注目度): 64.5799743375449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)モデルの急速な進歩はコンテンツ制作に革命をもたらしたが、その商業的可能性はほとんど未完成のままである。
我々は、T2Vにシームレスなブランド統合というタスクを初めて導入し、広告主のブランドを即時生成ビデオに自動的に埋め込み、ユーザの意図にセマンティックな忠実さを保ちます。
この課題は,迅速な忠実さの維持,ブランド認識性の確保,コンテキストによる自然な統合の実現という,3つの課題に直面する。
そこで我々は,2つの相乗的位相からなる新しいマルチエージェントフレームワークであるBrandFusionを提案する。
オフラインフェーズ(アドバタイザ対応)では、モデル先行を探索し、軽量な微調整により新しいブランドに適応することでブランド知識ベースを構築する。
オンラインフェーズ(ユーザインターフェース)では,5人のエージェントが共同でユーザプロンプトを改良し,共有知識ベースとリアルタイムコンテキストトラッキングを活用して,ブランドの可視性とセマンティックアライメントを確保する。
複数の最先端T2Vモデルで確立された18のブランドと2つのカスタムブランドの実験は、BrandFusionがセマンティック保存、ブランド認識性、統合自然性において、ベースラインを著しく上回っていることを示している。
人間の評価はさらにユーザ満足度を高め、持続可能なT2V収益化のための実践的な経路を確立する。
関連論文リスト
- Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models [76.7535001311919]
State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
テキスト・ツー・ビデオ・ジェネレーションを3つの特殊ステージに分解することでこれらのタスクを分離するパイプラインであるFVGを紹介した。
提案手法は,T2V CompBench ベンチマークに新たな最先端技術を導入し,VBench2 上でのテストモデルすべてを大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T10:10:45Z) - From Unlearning to UNBRANDING: A Benchmark for Trademark-Safe Text-to-Image Generation [0.7798283447125206]
ブランド認識は多次元であり、明示的なロゴを超えて独特の構造的特徴を包含する。
商標のきめ細かい除去と微妙な構造的ブランド機能のための新しいタスクであるunbrandingを紹介します。
我々のVision Language Modelsのメトリクスによって検証された結果、アンブランディングははっきりした、実際に関係のある問題であることを確認した。
論文 参考訳(メタデータ) (2025-12-15T23:15:36Z) - CIDER: A Causal Cure for Brand-Obsessed Text-to-Image Models [8.256738887166089]
テキスト・トゥ・イメージ(T2I)モデルは、まだ探索されていない重要な「ブランドバイアス」を示す
そこで我々はCIDERを提案する。CIDERは推論時のバイアスを軽減するためのモデルに依存しないフレームワークである。
論文 参考訳(メタデータ) (2025-09-19T09:30:37Z) - BiMark: Unbiased Multilayer Watermarking for Large Language Models [68.64050157343334]
テキスト品質とメッセージ埋め込み能力のバランスをとる新しい透かしフレームワークであるBiMarkを提案する。
BiMarkは、短いテキストに対して最大30%高い抽出率を達成すると同時に、低いパープレキシティで示されるテキスト品質を維持する。
論文 参考訳(メタデータ) (2025-06-19T11:08:59Z) - SkyReels-A2: Compose Anything in Video Diffusion Transformers [27.324119455991926]
本稿では、任意の視覚要素を合成ビデオに組み込むことができる制御可能なビデオ生成フレームワークSkyReels-A2を提案する。
このタスク要素をビデオ(E2V)と呼び、各参照要素の忠実さを保ち、シーンのコヒーレントな構成を確保し、自然な出力を達成することが主な課題である。
本稿では,多要素表現を生成プロセスに注入し,要素固有の一貫性とグローバルコヒーレンスとテキストアライメントのバランスをとる,新しい画像-テキスト共同埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2025-04-03T09:50:50Z) - LogoSticker: Inserting Logos into Diffusion Models for Customized Generation [73.59571559978278]
テキスト・ツー・イメージ・モデルにロゴを挿入する作業を導入する。
我々の目標は、ロゴのアイデンティティを拡散モデルに挿入し、様々な状況下でシームレスに合成できるようにすることです。
この課題に対処するために,新しい2相パイプラインLogoStickerを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:54:49Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - The Open Brands Dataset: Unified brand detection and recognition at
scale [33.624955564405425]
Open Brands」は、リッチなアノテーションによるブランド検出と認識のための最大のデータセットです。
ブランドネット」はブランド認識を扱う「ブランドネット」と呼ばれるネットワークである。
論文 参考訳(メタデータ) (2020-12-14T09:06:42Z) - An Integrated Approach for Improving Brand Consistency of Web Content:
Modeling, Analysis and Recommendation [27.312543486663536]
約650社から約3万のWebページコンテンツを収集しています。
内容の言語的特徴を考慮した特徴特化分類モデルを開発した。
そこで我々は,企業のブランドパーソナリティとより整合性を持たせるために,変更すべき上位3つの文を出力する文ランキングシステムを開発した。
論文 参考訳(メタデータ) (2020-11-19T10:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。