Fugu-MT 論文翻訳(概要): Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts

論文の概要: Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts

arxiv url: http://arxiv.org/abs/2505.16819v1
Date: Thu, 22 May 2025 15:54:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.423402
Title: Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
Title（参考訳）: Action2Dialogue:Scene-Level Promptから文字中心の物語を生成する
Authors: Taewon Kang, Ming C. Lin,
Abstract要約: 本稿では,アクションレベルのプロンプトを視覚的,聴覚的に基礎付けられた物語対話に変換するモジュールパイプラインを提案する。提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。我々は、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生み出す。
参考スコア（独自算出の注目度）: 20.281732318265483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in scene-based video generation have enabled systems to synthesize coherent visual narratives from structured prompts. However, a crucial dimension of storytelling -- character-driven dialogue and speech -- remains underexplored. In this paper, we present a modular pipeline that transforms action-level prompts into visually and auditorily grounded narrative dialogue, enriching visual storytelling with natural voice and character expression. Our method takes as input a pair of prompts per scene, where the first defines the setting and the second specifies a character's behavior. While a story generation model such as Text2Story generates the corresponding visual scene, we focus on generating expressive character utterances from these prompts and the scene image. We apply a pretrained vision-language encoder to extract a high-level semantic feature from the representative frame, capturing salient visual context. This feature is then combined with the structured prompts and used to guide a large language model in synthesizing natural, character-consistent dialogue. To ensure contextual consistency across scenes, we introduce a Recursive Narrative Bank that conditions each dialogue generation on the accumulated dialogue history from prior scenes. This approach enables characters to speak in ways that reflect their evolving goals and interactions throughout a story. Finally, we render each utterance as expressive, character-consistent speech, resulting in fully-voiced video narratives. Our framework requires no additional training and demonstrates applicability across a variety of story settings, from fantasy adventures to slice-of-life episodes.
Abstract（参考訳）: シーンベースビデオ生成の最近の進歩により、システムは構造化されたプロンプトからコヒーレントな視覚的物語を合成できるようになった。しかし、ストーリーテリングの重要な次元である、キャラクター主導の対話とスピーチは、まだ未解明のままである。本稿では,アクションレベルのプロンプトを視覚的・聴覚的に基礎づけた物語対話に変換し,自然な音声と文字表現による視覚的ストーリーテリングを充実させるモジュールパイプラインを提案する。提案手法はシーン毎に一対のプロンプトを入力し,第1に設定を定義し,第2にキャラクタの動作を指定する。 Text2Storyのようなストーリー生成モデルが対応する視覚シーンを生成する一方で、これらのプロンプトとシーンイメージから表現的文字発声を生成することに重点を置いている。本研究では、事前学習された視覚言語エンコーダを用いて、代表フレームから高レベルな意味的特徴を抽出し、有能な視覚コンテキストをキャプチャする。この機能は構造化されたプロンプトと組み合わせられ、自然な文字一貫性の対話を合成する際に大きな言語モデルを導くのに使用される。シーン間のコンテキスト整合性を確保するために,先行シーンから蓄積した対話履歴に各対話生成を条件付ける再帰的ナラティブ銀行を導入する。このアプローチにより、キャラクターはストーリー全体を通して進化する目標や相互作用を反映した方法で話すことができる。最後に、各発話を表現的かつ文字一貫性のある音声として表現し、完全な音声による映像物語を生成する。我々のフレームワークは追加のトレーニングを必要とせず、ファンタジー冒険から人生のスライスまで、さまざまなストーリー設定に適用可能であることを実証しています。

関連論文リスト

Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs [0.8702432681310401]
Aether Weaverは、マルチモーダルテキスト-視覚パイプラインの制限を克服する、物語的コジェネレーションのための新しいフレームワークである。本システムは,テキスト物語,動的シーングラフ表現,視覚シーン,情緒的サウンドスケープを同時に合成する。
論文参考訳（メタデータ） (2025-07-29T15:01:31Z)
From Panels to Prose: Generating Literary Narratives from Comics [55.544015596503726]
漫画からテキストベースの文芸物語を自動生成するシステムを開発した。提案手法は,オリジナルの物語を伝えるだけでなく,キャラクターの深さや複雑さを捉えた,挑発的で没入的な散文を作成することを目的としている。
論文参考訳（メタデータ） (2025-03-30T07:18:10Z)
MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文参考訳（メタデータ） (2025-03-30T04:22:09Z)
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。 PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2024-07-13T05:02:42Z)
NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文参考訳（メタデータ） (2023-10-02T13:24:00Z)
Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-06T19:17:47Z)
Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。 MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文参考訳（メタデータ） (2022-11-23T21:38:51Z)
A Benchmark for Understanding and Generating Dialogue between Characters in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。 DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文参考訳（メタデータ） (2022-09-18T10:19:04Z)
ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。手動評価と自動評価の両方の実験結果を示す。
論文参考訳（メタデータ） (2022-02-15T10:53:08Z)
Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文参考訳（メタデータ） (2021-04-16T09:44:12Z)
Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文参考訳（メタデータ） (2020-04-04T17:32:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。