論文の概要: MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.16840v1
- Date: Tue, 22 Oct 2024 09:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:49.562708
- Title: MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model
- Title(参考訳): MPDS:拡散モデルによる画像生成のための映画ポスターデータセット
- Authors: Meng Xu, Tong Zhang, Fuyun Wang, Yi Lei, Xin Liu, Zhen Cui,
- Abstract要約: 映画のポスターは観客を魅了し、テーマを伝え、映画業界で市場競争を牽引するために不可欠である。
画像生成のエキサイティングな進歩にもかかわらず、現在のモデルでは十分なポスター結果が得られないことが多い。
ポスター制作に革命をもたらすために,テキスト・ツー・画像生成モデルに適した映画ポスターデータセット(MPDS)を提案する。
- 参考スコア(独自算出の注目度): 26.361736240401594
- License:
- Abstract: Movie posters are vital for captivating audiences, conveying themes, and driving market competition in the film industry. While traditional designs are laborious, intelligent generation technology offers efficiency gains and design enhancements. Despite exciting progress in image generation, current models often fall short in producing satisfactory poster results. The primary issue lies in the absence of specialized poster datasets for targeted model training. In this work, we propose a Movie Posters DataSet (MPDS), tailored for text-to-image generation models to revolutionize poster production. As dedicated to posters, MPDS stands out as the first image-text pair dataset to our knowledge, composing of 373k+ image-text pairs and 8k+ actor images (covering 4k+ actors). Detailed poster descriptions, such as movie titles, genres, casts, and synopses, are meticulously organized and standardized based on public movie synopsis, also named movie-synopsis prompt. To bolster poster descriptions as well as reduce differences from movie synopsis, further, we leverage a large-scale vision-language model to automatically produce vision-perceptive prompts for each poster, then perform manual rectification and integration with movie-synopsis prompt. In addition, we introduce a prompt of poster captions to exhibit text elements in posters like actor names and movie titles. For movie poster generation, we develop a multi-condition diffusion framework that takes poster prompt, poster caption, and actor image (for personalization) as inputs, yielding excellent results through the learning of a diffusion model. Experiments demonstrate the valuable role of our proposed MPDS dataset in advancing personalized movie poster generation. MPDS is available at https://anonymous.4open.science/r/MPDS-373k-BD3B.
- Abstract(参考訳): 映画のポスターは観客を魅了し、テーマを伝え、映画業界で市場競争を牽引するために不可欠である。
従来のデザインは手間がかかるが、インテリジェント・ジェネレーション・テクノロジーは効率の向上と設計の強化を提供する。
画像生成のエキサイティングな進歩にもかかわらず、現在のモデルでは十分なポスター結果が得られないことが多い。
主な問題は、ターゲットモデルトレーニングのための特別なポスターデータセットがないことである。
本研究では,ポスター制作に革命をもたらすテキスト・ツー・画像生成モデルに適した映画ポスターデータセット(MPDS)を提案する。
ポスター専用として、MPDSは373k以上の画像テキストペアと8k以上のアクターイメージ(4k以上のアクターをカバー)からなる、私たちの知識に対する最初の画像テキストペアデータセットとして際立っている。
映画のタイトル、ジャンル、キャスト、シナプスなどの詳細なポスターの説明は、公開映画のシナプスに基づいて慎重に整理され標準化され、映画シノプシスプロンプトとも呼ばれる。
ポスター記述の強化と映画のシナプスの違いの低減のために,ポスターごとに視覚知覚プロンプトを自動生成する大規模視覚言語モデルを活用し,手作業による修正と映画シノプシスプロンプトの統合を行う。
また,俳優名や映画タイトルなどのポスターにテキスト要素を表示するために,ポスターキャプションのプロンプトを導入する。
ポスター生成のために,ポスタープロンプト,ポスターキャプション,アクターイメージ(パーソナライズのための)を入力として,拡散モデルの学習を通じて優れた結果を得られる多条件拡散フレームワークを開発した。
映画ポスター作成におけるMPDSデータセットの意義を示す実験を行った。
MPDSはhttps://anonymous.4open.science/r/MPDS-373k-BD3Bで利用可能である。
関連論文リスト
- Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster [13.28948224096886]
映画ジャンルの分類は、映画マーケティング、オーディエンスエンゲージメント、レコメンデーションシステムにおいて重要な役割を果たしている。
映画ジャンルの分類に関する以前の調査は、主にプロット・サマリー、サブタイトル、トレーラー、映画のシーンで検討されてきた。
本稿では,多言語映画ジャンル分類問題に対処するために,視覚的・テキスト的視点から映画ポスターを利用する枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:14:18Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.5791485306093245]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Planning and Rendering: Towards Product Poster Generation with Diffusion Models [21.45855580640437]
P&Rという拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
計画段階では、製品やその他のビジュアルコンポーネントのレイアウトを生成するためのPlanNetを提案する。
レンダリング段階では、生成したレイアウトを考慮しつつ、製品の背景を生成するRenderNetを提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-14T11:11:50Z) - Demystifying Visual Features of Movie Posters for Multi-Label Genre Identification [0.35998666903987897]
本稿では,ポスターからのみ映画ジャンルを特定するための確率的モジュールを備えたディープトランスフォーマーネットワークを提案する。
実験では,インターネット映画データベース (IMDb) から13のジャンルの13882のポスターを入手した。
論文 参考訳(メタデータ) (2023-09-21T12:39:36Z) - AutoPoster: A Highly Automatic and Content-aware Design System for
Advertising Poster Generation [14.20790443380675]
本稿では,広告ポスター作成のための高度に自動化されたコンテンツ認識システムであるAutoPosterを紹介する。
AutoPosterはプロダクトイメージとタイトルのみを入力として、異なるサイズのポスターを4つのキーステージを通じて自動的に生成する。
76k以上のポスターに対する視覚属性アノテーションを含む最初のポスター生成データセットを提案する。
論文 参考訳(メタデータ) (2023-08-02T11:58:43Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Film Trailer Generation via Task Decomposition [65.16768855902268]
私たちは映画をグラフとしてモデル化し、ノードはショットであり、エッジはそれらの間のセマンティックな関係を表す。
スクリーンプレイから特権的テキスト情報を活用する共同コントラストトレーニングを用いて,これらの関係を学習する。
教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争的な教師付きアプローチによって生成されるトレーラーを生成する。
論文 参考訳(メタデータ) (2021-11-16T20:50:52Z) - Political Posters Identification with Appearance-Text Fusion [49.55696202606098]
外観特徴とテキストベクトルを効率的に活用し, 政治ポスターを高精度に分類する手法を提案する。
この作品の大半は、特定の政治イベントのプロモーションとして機能するように設計された政治ポスターに焦点を当てている。
論文 参考訳(メタデータ) (2020-12-19T16:14:51Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。