論文の概要: Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
- arxiv url: http://arxiv.org/abs/2505.16819v2
- Date: Sat, 02 Aug 2025 16:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.872139
- Title: Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
- Title(参考訳): Action2Dialogue:Scene-Level Promptから文字中心の物語を生成する
- Authors: Taewon Kang, Ming C. Lin,
- Abstract要約: 本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的、文字条件付き音声として表現し、その結果、完全に音声化されたマルチモーダルなビデオ物語を生み出す。
- 参考スコア(独自算出の注目度): 20.281732318265483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in scene-based video generation have enabled systems to synthesize coherent visual narratives from structured prompts. However, a crucial dimension of storytelling -- character-driven dialogue and speech -- remains underexplored. In this paper, we present a modular pipeline that transforms action-level prompts into visually and auditorily grounded narrative dialogue, enriching visual storytelling with natural voice and character expression. Our method takes as input a pair of prompts per scene, where the first defines the setting and the second specifies a character's behavior. While a story generation model such as Text2Story produces the corresponding visual scene, we focus on generating expressive, character-consistent utterances grounded in both the prompts and the scene image. A pretrained vision-language encoder extracts high-level semantic features from a representative frame, capturing salient visual context. These features are then integrated with structured prompts to guide a large language model in synthesizing natural dialogue. To ensure contextual and emotional consistency across scenes, we introduce a Recursive Narrative Bank -- a speaker-aware, temporally structured memory that recursively accumulates each character's dialogue history. Inspired by Script Theory in cognitive psychology, this design enables characters to speak in ways that reflect their evolving goals, social context, and narrative roles throughout the story. Finally, we render each utterance as expressive, character-conditioned speech, resulting in fully-voiced, multimodal video narratives. Our training-free framework generalizes across diverse story settings -- from fantasy adventures to slice-of-life episodes -- offering a scalable solution for coherent, character-grounded audiovisual storytelling.
- Abstract(参考訳): シーンベースビデオ生成の最近の進歩により、システムは構造化されたプロンプトからコヒーレントな視覚的物語を合成できるようになった。
しかし、ストーリーテリングの重要な次元である、キャラクター主導の対話とスピーチは、まだ未解明のままである。
本稿では,アクションレベルのプロンプトを視覚的・聴覚的に基礎づけた物語対話に変換し,自然な音声と文字表現による視覚的ストーリーテリングを充実させるモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
Text2Storyのようなストーリー生成モデルが対応する視覚シーンを生成する一方で、プロンプトとシーンイメージの両方に基礎を置き、表現的かつ文字一貫性のある発話を生成することに重点を置いている。
事前学習された視覚言語エンコーダは、代表フレームから高レベルの意味的特徴を抽出し、有能な視覚コンテキストをキャプチャする。
これらの特徴は構造化プロンプトと統合され、自然な対話を合成する際に大きな言語モデルを導く。
シーン間の文脈的・感情的な一貫性を確保するため、各キャラクターの対話履歴を再帰的に蓄積する話者認識型、時間的構造化メモリであるRecursive Narrative Bankを導入する。
認知心理学におけるスクリプト理論にインスパイアされたこのデザインは、キャラクターが物語全体を通して進化する目標、社会的文脈、物語の役割を反映する方法で話すことを可能にする。
最後に、各発話を表現的、文字条件付き音声として表現し、その結果、完全に音声化されたマルチモーダルなビデオ物語が生まれる。
トレーニングなしのフレームワークは、ファンタジー冒険から人生のスライスまで、さまざまなストーリー設定を一般化します。
関連論文リスト
- Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs [0.8702432681310401]
Aether Weaverは、マルチモーダルテキスト-視覚パイプラインの制限を克服する、物語的コジェネレーションのための新しいフレームワークである。
本システムは,テキスト物語,動的シーングラフ表現,視覚シーン,情緒的サウンドスケープを同時に合成する。
論文 参考訳(メタデータ) (2025-07-29T15:01:31Z) - From Panels to Prose: Generating Literary Narratives from Comics [55.544015596503726]
漫画からテキストベースの文芸物語を自動生成するシステムを開発した。
提案手法は,オリジナルの物語を伝えるだけでなく,キャラクターの深さや複雑さを捉えた,挑発的で没入的な散文を作成することを目的としている。
論文 参考訳(メタデータ) (2025-03-30T07:18:10Z) - MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。
ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文 参考訳(メタデータ) (2023-10-02T13:24:00Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文 参考訳(メタデータ) (2020-04-04T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。