論文の概要: Generating coherent comic with rich story using ChatGPT and Stable
Diffusion
- arxiv url: http://arxiv.org/abs/2305.11067v2
- Date: Fri, 19 May 2023 02:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:56:03.717332
- Title: Generating coherent comic with rich story using ChatGPT and Stable
Diffusion
- Title(参考訳): ChatGPTと安定拡散を用いたリッチストーリーによるコヒーレントコミックの生成
- Authors: Ze Jin, Zorina Song
- Abstract要約: 過去の研究は、ニューラルネットワークを使うことで、演奏者の音楽スタイルを維持しながら未完成の音楽作品を拡張することができることを示した。
私たちは現在、アーティストのアートスタイルを維持しながら、面白いストーリーラインでコミックを生成することができます。
- 参考スコア(独自算出の注目度): 0.77288480250888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past work demonstrated that using neural networks, we can extend unfinished
music pieces while maintaining the music style of the musician. With recent
advancements in large language models and diffusion models, we are now capable
of generating comics with an interesting storyline while maintaining the art
style of the artist. In this paper, we used ChatGPT to generate storylines and
dialogue and then generated the comic using stable diffusion. We introduced a
novel way to evaluate AI-generated stories, and we achieved SOTA performance on
character fidelity and art style by fine-tuning stable diffusion using LoRA,
ControlNet, etc.
- Abstract(参考訳): 過去の研究では、ニューラルネットワークを使うことで、ミュージシャンの音楽スタイルを維持しながら未完成の音楽を拡張できることを示した。
近年の大規模言語モデルや拡散モデルの発展により,アーティストの芸術スタイルを維持しつつ,面白いストーリーラインで漫画を制作することが可能になった。
本稿では,ChatGPTを用いてストーリーラインと対話を生成し,安定拡散を用いて漫画を生成する。
我々は,AI生成ストーリを評価する新しい手法を導入し,LoRAやControlNetなどを用いた安定した拡散を微調整することで,文字の忠実さとアートスタイルのSOTA性能を実現した。
関連論文リスト
- Collaborative Comic Generation: Integrating Visual Narrative Theories with AI Models for Enhanced Creativity [1.1181151748260076]
本研究は,概念的原理-共通オーサリング・イディオムと生成的・言語モデルを統合し,漫画作成プロセスを強化する理論に着想を得たビジュアル・ナラティブ・ジェネレーションシステムを提案する。
主な貢献は、機械学習モデルを人間-AI協調コミック生成プロセスに統合すること、抽象的な物語理論をAI駆動コミック作成に展開すること、物語駆動画像シーケンスのカスタマイズ可能なツールである。
論文 参考訳(メタデータ) (2024-09-25T18:21:01Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - SARD: A Human-AI Collaborative Story Generation [0.0]
本研究では,大規模言語モデルを用いたマルチチャプタストーリ生成のためのドラッグアンドドロップ型ビジュアルインタフェースであるSARDを提案する。
SARDのユーザビリティとその創造性に対する評価は、物語のノードベースの可視化は、著者がメンタルモデルを構築するのに役立つかもしれないが、著者にとって不必要な精神的オーバーヘッドを生じさせることを示している。
また、AIはストーリーの複雑さに関係なく、語彙的に多様性の低いストーリーを生成することもわかりました。
論文 参考訳(メタデータ) (2024-03-03T17:48:42Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion [27.567536688166776]
我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
論文 参考訳(メタデータ) (2023-01-27T14:52:53Z) - Creative Painting with Latent Diffusion Models [1.4649095013539173]
遅延拡散モデル (LDMs) は, 安定かつ高出生率の画像生成を実現している。
ウィキアート・データセットを用いたテキスト・コンディション・エクステンションとモデル・リトレーニングの2つの方向における現行のLCDの創造的絵画能力の向上に焦点をあてる。
論文 参考訳(メタデータ) (2022-09-29T11:49:07Z) - Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation [57.10363557465713]
本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
論文 参考訳(メタデータ) (2021-01-26T22:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。