論文の概要: ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.02820v1
- Date: Tue, 4 Jun 2024 23:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:37:23.681199
- Title: ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models
- Title(参考訳): ORACLE:拡散モデルにおける連続文字生成のための相互情報の活用
- Authors: Kiymet Akdemir, Pinar Yanardag,
- Abstract要約: 単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
- 参考スコア(独自算出の注目度): 3.7599363231894185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have recently taken center stage as pivotal tools in promoting visual creativity across an array of domains such as comic book artistry, children's literature, game development, and web design. These models harness the power of artificial intelligence to convert textual descriptions into vivid images, thereby enabling artists and creators to bring their imaginative concepts to life with unprecedented ease. However, one of the significant hurdles that persist is the challenge of maintaining consistency in character generation across diverse contexts. Variations in textual prompts, even if minor, can yield vastly different visual outputs, posing a considerable problem in projects that require a uniform representation of characters throughout. In this paper, we introduce a novel framework designed to produce consistent character representations from a single text prompt across diverse settings. Through both quantitative and qualitative analyses, we demonstrate that our framework outperforms existing methods in generating characters with consistent visual identities, underscoring its potential to transform creative industries. By addressing the critical challenge of character consistency, we not only enhance the practical utility of these models but also broaden the horizons for artistic and creative expression.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは最近、漫画作品、児童文学、ゲーム開発、ウェブデザインなど、様々な分野における視覚的創造性を促進する重要なツールとして、中心的な舞台に立った。
これらのモデルは人工知能の力を利用して、テキスト記述を鮮明なイメージに変換する。
しかし、持続する重要なハードルの1つは、さまざまなコンテキストにわたる文字生成における一貫性を維持することの難しさである。
テキストのプロンプトの変化は、たとえマイナーであっても、非常に異なる視覚出力をもたらすことができ、文字の均一な表現を必要とするプロジェクトにおいてかなりの問題を引き起こす。
本稿では,多様な設定にまたがる単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
定量的および定性的な分析によって、我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れており、創造産業を変革する可能性を示している。
キャラクタ一貫性の重要な課題に対処することにより、これらのモデルの実用性を高めるだけでなく、芸術的・創造的な表現の地平を広げる。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model [0.4374837991804086]
潜在拡散モデル(LDMs)は、AI能力の領域におけるパラダイムシフトを意味する。
本稿は、文学作品の描写に安定拡散 LDM を用いることの可能性について考察する。
論文 参考訳(メタデータ) (2024-08-01T13:28:15Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。