論文の概要: Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2408.00544v1
- Date: Thu, 1 Aug 2024 13:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:26:35.152159
- Title: Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model
- Title(参考訳): テキスト・画像拡散モデルによるブラジル古典書の挿絵化
- Authors: Felipe Mahlow, André Felipe Zanella, William Alberto Cruz Castañeda, Regilene Aparecida Sarzi-Ribeiro,
- Abstract要約: 潜在拡散モデル(LDMs)は、AI能力の領域におけるパラダイムシフトを意味する。
本稿は、文学作品の描写に安定拡散 LDM を用いることの可能性について考察する。
- 参考スコア(独自算出の注目度): 0.4374837991804086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Generative Artificial Intelligence (GenAI) has undergone a profound transformation in addressing intricate tasks involving diverse modalities such as textual, auditory, visual, and pictorial generation. Within this spectrum, text-to-image (TTI) models have emerged as a formidable approach to generating varied and aesthetically appealing compositions, spanning applications from artistic creation to realistic facial synthesis, and demonstrating significant advancements in computer vision, image processing, and multimodal tasks. The advent of Latent Diffusion Models (LDMs) signifies a paradigm shift in the domain of AI capabilities. This article delves into the feasibility of employing the Stable Diffusion LDM to illustrate literary works. For this exploration, seven classic Brazilian books have been selected as case studies. The objective is to ascertain the practicality of this endeavor and to evaluate the potential of Stable Diffusion in producing illustrations that augment and enrich the reader's experience. We will outline the beneficial aspects, such as the capacity to generate distinctive and contextually pertinent images, as well as the drawbacks, including any shortcomings in faithfully capturing the essence of intricate literary depictions. Through this study, we aim to provide a comprehensive assessment of the viability and efficacy of utilizing AI-generated illustrations in literary contexts, elucidating both the prospects and challenges encountered in this pioneering application of technology.
- Abstract(参考訳): 近年、ジェネレーティブ・人工知能(GenAI)は、テキスト、聴覚、視覚、画像生成といった多様なモダリティを含む複雑なタスクに対処する上で、大きな変革を遂げている。
このスペクトルの中で、テキスト・トゥ・イメージ(TTI)モデルは、芸術的創造から現実的な顔合成への応用、コンピュータビジョン、画像処理、マルチモーダルタスクの大幅な進歩を示す、多彩で美的な構成を生成するための、恐ろしいアプローチとして現れてきた。
潜在拡散モデル(LDM)の出現は、AI能力の領域におけるパラダイムシフトを表している。
本稿は、文学作品の描写に安定拡散 LDM を用いることの可能性について考察する。
この調査のために7冊のブラジル古典書がケーススタディとして選ばれている。
目的は、この試みの実用性を確認し、読者の体験を増補し、豊かにするイラストを作成する際の安定拡散の可能性を評価することである。
特徴的かつ文脈的に関連する画像を生成する能力や、複雑な文学的描写の本質を忠実に捉えるのに欠点を含む欠点など、有益な側面を概説する。
本研究では,この先駆的な技術の応用において直面する可能性と課題を解明し,文学的文脈におけるAI生成図面の有効性と有効性を総合的に評価することを目的とする。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-06-04T23:39:08Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Generative Artificial Intelligence: A Systematic Review and Applications [7.729155237285151]
本稿では、ジェネレーティブAIにおける最近の進歩と技術に関する体系的なレビューと分析について述べる。
生成AIがこれまで行った大きな影響は、大きな言語モデルの開発による言語生成である。
論文は、責任あるAIの原則と、これらの生成モデルの持続可能性と成長に必要な倫理的考察から締めくくられる。
論文 参考訳(メタデータ) (2024-05-17T18:03:59Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis
in Quantized Latent Spaces [0.7340845393655052]
トレーニングパラダイムとサンプリングプロセスの両方を包含するテキスト・画像生成の合理化手法を提案する。
本手法は, 極めて単純であるが, サンプリングをほとんど行わず, 審美的に満足な画像が得られる。
既存の作業に匹敵する結果を得るために,本手法の有効性を示すために,1ビリオンパラメータのテキスト条件モデルを訓練した。
論文 参考訳(メタデータ) (2022-11-14T11:52:55Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。