論文の概要: Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
- arxiv url: http://arxiv.org/abs/2505.16819v1
- Date: Thu, 22 May 2025 15:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.423402
- Title: Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
- Title(参考訳): Action2Dialogue:Scene-Level Promptから文字中心の物語を生成する
- Authors: Taewon Kang, Ming C. Lin,
- Abstract要約: 本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
我々は、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生み出す。
- 参考スコア(独自算出の注目度): 20.281732318265483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in scene-based video generation have enabled systems to synthesize coherent visual narratives from structured prompts. However, a crucial dimension of storytelling -- character-driven dialogue and speech -- remains underexplored. In this paper, we present a modular pipeline that transforms action-level prompts into visually and auditorily grounded narrative dialogue, enriching visual storytelling with natural voice and character expression. Our method takes as input a pair of prompts per scene, where the first defines the setting and the second specifies a character's behavior. While a story generation model such as Text2Story generates the corresponding visual scene, we focus on generating expressive character utterances from these prompts and the scene image. We apply a pretrained vision-language encoder to extract a high-level semantic feature from the representative frame, capturing salient visual context. This feature is then combined with the structured prompts and used to guide a large language model in synthesizing natural, character-consistent dialogue. To ensure contextual consistency across scenes, we introduce a Recursive Narrative Bank that conditions each dialogue generation on the accumulated dialogue history from prior scenes. This approach enables characters to speak in ways that reflect their evolving goals and interactions throughout a story. Finally, we render each utterance as expressive, character-consistent speech, resulting in fully-voiced video narratives. Our framework requires no additional training and demonstrates applicability across a variety of story settings, from fantasy adventures to slice-of-life episodes.
- Abstract(参考訳): シーンベースビデオ生成の最近の進歩により、システムは構造化されたプロンプトからコヒーレントな視覚的物語を合成できるようになった。
しかし、ストーリーテリングの重要な次元である、キャラクター主導の対話とスピーチは、まだ未解明のままである。
本稿では,アクションレベルのプロンプトを視覚的・聴覚的に基礎づけた物語対話に変換し,自然な音声と文字表現による視覚的ストーリーテリングを充実させるモジュールパイプラインを提案する。
提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。
Text2Storyのようなストーリー生成モデルが対応する視覚シーンを生成する一方で、これらのプロンプトとシーンイメージから表現的文字発声を生成することに重点を置いている。
本研究では、事前学習された視覚言語エンコーダを用いて、代表フレームから高レベルな意味的特徴を抽出し、有能な視覚コンテキストをキャプチャする。
この機能は構造化されたプロンプトと組み合わせられ、自然な文字一貫性の対話を合成する際に大きな言語モデルを導くのに使用される。
シーン間のコンテキスト整合性を確保するために,先行シーンから蓄積した対話履歴に各対話生成を条件付ける再帰的ナラティブ銀行を導入する。
このアプローチにより、キャラクターはストーリー全体を通して進化する目標や相互作用を反映した方法で話すことができる。
最後に、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生成する。
我々のフレームワークは追加のトレーニングを必要とせず、ファンタジー冒険から人生のスライスまで、さまざまなストーリー設定に適用可能であることを実証しています。
関連論文リスト
- MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。
ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文 参考訳(メタデータ) (2023-10-02T13:24:00Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文 参考訳(メタデータ) (2020-04-04T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。