論文の概要: TaleForge: Interactive Multimodal System for Personalized Story Creation
- arxiv url: http://arxiv.org/abs/2506.21832v1
- Date: Fri, 27 Jun 2025 00:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.038184
- Title: TaleForge: Interactive Multimodal System for Personalized Story Creation
- Title(参考訳): TaleForge:パーソナライズされたストーリー作成のための対話型マルチモーダルシステム
- Authors: Minh-Loi Nguyen, Quang-Khai Le, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: TaleForgeは、物語とイラストの両方にユーザーの顔画像を埋め込む、パーソナライズされたストーリー生成システムである。
ユーザスタディでは、個人が主人公として現れると、エンゲージメントとオーナシップが高まった。
- 参考スコア(独自算出の注目度): 15.193340794653261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Storytelling is a deeply personal and creative process, yet existing methods often treat users as passive consumers, offering generic plots with limited personalization. This undermines engagement and immersion, especially where individual style or appearance is crucial. We introduce TaleForge, a personalized story-generation system that integrates large language models (LLMs) and text-to-image diffusion to embed users' facial images within both narratives and illustrations. TaleForge features three interconnected modules: Story Generation, where LLMs create narratives and character descriptions from user prompts; Personalized Image Generation, merging users' faces and outfit choices into character illustrations; and Background Generation, creating scene backdrops that incorporate personalized characters. A user study demonstrated heightened engagement and ownership when individuals appeared as protagonists. Participants praised the system's real-time previews and intuitive controls, though they requested finer narrative editing tools. TaleForge advances multimodal storytelling by aligning personalized text and imagery to create immersive, user-centric experiences.
- Abstract(参考訳): ストーリーテリングは深い個人的かつ創造的なプロセスであるが、既存の方法はユーザーを受動的消費者として扱い、限定されたパーソナライズを伴う一般的なプロットを提供する。
これは、特に個々のスタイルや外観が重要である場合に、エンゲージメントと没入性を損なう。
本研究では,大きな言語モデル(LLM)とテキスト・ツー・イメージ拡散を統合し,物語とイラストの両方にユーザの顔画像を埋め込む,パーソナライズされたストーリー生成システムであるTraForgeを紹介する。
TaleForgeには、3つの相互接続モジュールがある: Story Generation, LLMs create narratives and character descriptions from user prompts, Personalized Image Generation,merging users face and choices into character illustrations, and background Generation, creating scene backdrops which incorporated characters。
ユーザスタディでは、個人が主人公として現れると、エンゲージメントとオーナシップが高まった。
参加者はリアルタイムプレビューと直感的なコントロールを賞賛したが、より詳細な物語編集ツールを要求した。
TaleForgeは、パーソナライズされたテキストと画像を組み合わせて、没入的でユーザ中心の体験を作り出すことで、マルチモーダルなストーリーテリングを推進している。
関連論文リスト
- Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts [20.281732318265483]
本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生み出す。
論文 参考訳(メタデータ) (2025-05-22T15:54:42Z) - Facilitating Video Story Interaction with Multi-Agent Collaborative System [7.7519050921867825]
我々のシステムは視覚言語モデル(VLM)を用いて、機械がビデオストーリーを理解できるようにする。
Retrieval-Augmented Generation (RAG)とMulti-Agent System (MAS)を組み合わせて、キャラクターやシーン体験を進化させる。
論文 参考訳(メタデータ) (2025-05-02T09:08:13Z) - IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
IP-Prompterは、新しいトレーニング不要なTSI生成方法である。
参照イメージを生成モデルに統合することで、ユーザはシームレスに対象テーマを指定することができる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成など,多様な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。
ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文 参考訳(メタデータ) (2023-10-02T13:24:00Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - FairyTailor: A Multimodal Generative Framework for Storytelling [33.39639788612019]
本稿では,人間とループによるビジュアルストーリーのコクリエーションのためのシステムとデモ,FairyTailorを紹介する。
ユーザは、生成されたテキストを織り、入力で検索した画像を織り込むことで、結束した子供の妖精を作ることができる。
我々の知る限り、これはテキストと画像の両方のインタラクティブなコフォームを可能にするマルチモーダルなストーリー生成のための最初の動的ツールである。
論文 参考訳(メタデータ) (2021-07-13T02:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。