論文の概要: Imagining from Images with an AI Storytelling Tool
- arxiv url: http://arxiv.org/abs/2408.11517v1
- Date: Wed, 21 Aug 2024 10:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:27:26.607349
- Title: Imagining from Images with an AI Storytelling Tool
- Title(参考訳): AIストーリーテリングツールによる画像からのイマジネーション
- Authors: Edirlei Soares de Lima, Marco A. Casanova, Antonio L. Furtado,
- Abstract要約: 提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
- 参考スコア(独自算出の注目度): 0.27309692684728604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A method for generating narratives by analyzing single images or image sequences is presented, inspired by the time immemorial tradition of Narrative Art. The proposed method explores the multimodal capabilities of GPT-4o to interpret visual content and create engaging stories, which are illustrated by a Stable Diffusion XL model. The method is supported by a fully implemented tool, called ImageTeller, which accepts images from diverse sources as input. Users can guide the narrative's development according to the conventions of fundamental genres - such as Comedy, Romance, Tragedy, Satire or Mystery -, opt to generate data-driven stories, or to leave the prototype free to decide how to handle the narrative structure. User interaction is provided along the generation process, allowing the user to request alternative chapters or illustrations, and even reject and restart the story generation based on the same input. Additionally, users can attach captions to the input images, influencing the system's interpretation of the visual content. Examples of generated stories are provided, along with details on how to access the prototype.
- Abstract(参考訳): 物語芸術の古来の伝統に触発されて、単一の画像や画像シーケンスを分析して物語を生成する方法が提示される。
提案手法は,GPT-4oのマルチモーダルな機能を利用して視覚的内容の解釈と,安定拡散XLモデルによるエンゲージメントなストーリーの作成を行う。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
ユーザーは、コメディ、ロマンス、トラゲディ、サティア、ミステリーといった基本的なジャンルの慣習に従って物語の発展をガイドしたり、データ駆動型ストーリーを生成することを選んだり、あるいは、物語の構造をどう扱うかを決めるためにプロトタイプを自由にしておくことができる。
ユーザインタラクションは生成プロセスに沿って提供され、ユーザは別の章やイラストをリクエストしたり、同じ入力に基づいてストーリー生成を拒否したり再起動したりすることができます。
さらに、ユーザは入力画像にキャプションを付加することができ、システムの視覚内容の解釈に影響を与える。
生成したストーリの例とプロトタイプへのアクセス方法の詳細が提供されている。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual
Storytelling via Multi-Layered Semantic-Aware Denoising [42.20750912837316]
MagicScrollはプログレッシブ拡散に基づく画像生成フレームワークであり、新しいセマンティック・アウェア・デノナイジング・プロセスを備えている。
オブジェクト、シーン、背景のレベルで生成された画像を、テキスト、画像、レイアウト条件できめ細かく制御できる。
物語のテキストの整合性、視覚的コヒーレンスの改善、オーディエンスへのエンゲージメントなど、有望な成果が紹介されている。
論文 参考訳(メタデータ) (2023-12-18T03:09:05Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Visual Story Generation Based on Emotion and Keywords [5.3860505447668015]
この研究は、ユーザとビジュアルストーリーを共同作成するためのストーリー生成パイプラインを提案する。
パイプラインには、物語と画像生成の2つの部分が含まれている。
論文 参考訳(メタデータ) (2023-01-07T03:56:49Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。