論文の概要: EmoStory: Emotion-Aware Story Generation
- arxiv url: http://arxiv.org/abs/2603.10349v1
- Date: Wed, 11 Mar 2026 02:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.75432
- Title: EmoStory: Emotion-Aware Story Generation
- Title(参考訳): EmoStory:感情に敏感なストーリージェネレーション
- Authors: Jingyuan Yang, Rucong Chen, Hui Huang,
- Abstract要約: 本稿では,感情を意識したストーリー生成について紹介する。
EmoStoryはエージェントベースのストーリープランニングと地域対応ストーリー生成を統合した2段階のフレームワークである。
EmoStoryを25の被験者と600の感情的ストーリーを対象とした新たに構築したデータセットで評価した。
- 参考スコア(独自算出の注目度): 8.734768359185106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Story generation aims to produce image sequences that depict coherent narratives while maintaining subject consistency across frames. Although existing methods have excelled in producing coherent and expressive stories, they remain largely emotion-neutral, focusing on what subject appears in a story while overlooking how emotions shape narrative interpretation and visual presentation. As stories are intended to engage audiences emotionally, we introduce emotion-aware story generation, a new task that aims to generate subject-consistent visual stories with explicit emotional directions. This task is challenging due to the abstract nature of emotions, which must be grounded in concrete visual elements and consistently expressed across a narrative through visual composition. To address these challenges, we propose EmoStory, a two-stage framework that integrates agent-based story planning and region-aware story generation. The planning stage transforms target emotions into coherent story prompts with emotion agent and writer agent, while the generation stage preserves subject consistency and injects emotion-related elements through region-aware composition. We evaluate EmoStory on a newly constructed dataset covering 25 subjects and 600 emotional stories. Extensive quantitative and qualitative results, along with user studies, show that EmoStory outperforms state-of-the-art story generation methods in emotion accuracy, prompt alignment, and subject consistency.
- Abstract(参考訳): ストーリー生成は、フレーム間の主観的一貫性を維持しながら、コヒーレントな物語を描くイメージシーケンスを作成することを目的としている。
既存の手法はコヒーレントで表現力のある物語を生み出すのに優れてきたが、感情が物語の解釈や視覚的な表現を形作る様子を垣間見る一方で、物語にどのような主題が現れるかに焦点を絞った感情中立性は保たれている。
ストーリーは観客を感情的にエンゲージすることを目的としており,感情を意識したストーリー生成を導入している。
この課題は、感情の抽象的な性質のために困難であり、具体的な視覚要素に基礎を置き、視覚的な構成を通して物語に一貫して表わさなければならない。
これらの課題に対処するため,エージェントベースのストーリープランニングと地域対応ストーリー生成を統合した2段階フレームワークであるEmoStoryを提案する。
計画段階は、対象の感情をコヒーレントなストーリープロンプトに変換し、生成段階は、主題の一貫性を保ち、領域認識構成を介して感情関連要素を注入する。
EmoStoryを25の被験者と600の感情的ストーリーを対象とした新たに構築したデータセットで評価した。
EmoStoryは感情の正確さ、素早いアライメント、主観的一貫性において最先端のストーリー生成方法より優れていることを示す。
関連論文リスト
- Text-Driven Emotionally Continuous Talking Face Generation [24.062908127306695]
実写映像を合成するために,情緒的連続発話顔生成(EC-TFG)を提案する。
EC-TFGは、テキストセグメントと様々な感情を駆動データとして記述し、その人がテキストを話すビデオを生成する。
本稿では,動的感情変動を革新的に管理する,時間集中型感情変調顔生成(TIE-TFG)のカスタマイズモデルを提案する。
論文 参考訳(メタデータ) (2026-03-06T09:24:43Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - All Stories Are One Story: Emotional Arc Guided Procedural Game Level Generation [1.8885685625700497]
本稿では,情緒的弧を構造的バックボーンとして組み込んだプロシージャゲーム物語生成の枠組みを提案する。
私たちは2つの中核的な感情パターン(ライズとフォール)に注目して、分岐したストーリーグラフの生成をガイドします。
本システムでは,大規模言語モデルと適応エンティティ生成を用いて感情弧を操作できることを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:27:55Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。
既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。
本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T07:30:53Z) - EmoTalker: Emotionally Editable Talking Face Generation via Diffusion
Model [39.14430238946951]
EmoTalkerは、拡散モデルに基づく感情的に編集可能なポートレートアニメーションアプローチである。
感情インテンシティブロックは、プロンプトから派生したきめ細かい感情や強みを分析するために導入された。
EmoTalkerが高品質で感情的にカスタマイズ可能な表情生成に有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2024-01-16T02:02:44Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。