論文の概要: Directing the Narrative: A Finetuning Method for Controlling Coherence and Style in Story Generation
- arxiv url: http://arxiv.org/abs/2603.17295v1
- Date: Wed, 18 Mar 2026 02:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.480595
- Title: Directing the Narrative: A Finetuning Method for Controlling Coherence and Style in Story Generation
- Title(参考訳): 物語の方向:ストーリー生成におけるコヒーレンスとスタイルの制御のための微調整方法
- Authors: Jianzhang Zhang, Yijing Tian, Jiwang Qu, Chuang Liu,
- Abstract要約: 堅牢で一貫したストーリー生成のために設計された2段階のフレームワークを提案する。
まず、本質的な一貫性を促進するメカニズムであるGSA(Group-Shared Attention)を紹介する。
第2に、DPO(Direct Preference Optimization)を利用して、生成した出力を人間の美学と物語の基準に合わせる。
- 参考スコア(独自算出の注目度): 2.9255420892138306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Story visualization requires generating sequential imagery that aligns semantically with evolving narratives while maintaining rigorous consistency in character identity and visual style. However, existing methodologies often struggle with subject inconsistency and identity drift, particularly when depicting complex interactions or extended narrative arcs. To address these challenges, we propose a cohesive two-stage framework designed for robust and consistent story generation. First, we introduce Group-Shared Attention (GSA), a mechanism that fosters intrinsic consistency by enabling lossless cross-sample information flow within attention layers. This allows the model to structurally encode identity correspondence across frames without relying on external encoders. Second, we leverage Direct Preference Optimization (DPO) to align generated outputs with human aesthetic and narrative standards. Unlike conventional methods that rely on conflicting auxiliary losses, our approach simultaneously enhances visual fidelity and identity preservation by learning from holistic preference data. Extensive evaluations on the ViStoryBench benchmark demonstrate that our method establishes a new state-of-the-art, significantly outperforming strong baselines with gains of +10.0 in Character Identity (CIDS) and +18.7 in Style Consistency (CSD), all while preserving high-fidelity generation.
- Abstract(参考訳): ストーリービジュアライゼーションは、キャラクターのアイデンティティと視覚スタイルの厳密な一貫性を維持しながら、進化する物語とセマンティックに整合するシーケンシャルなイメージを生成する必要がある。
しかし、既存の方法論は、特に複雑な相互作用や拡張された物語の弧を描く際に、主題の不整合やアイデンティティの漂流に悩まされることが多い。
これらの課題に対処するため、我々は、堅牢で一貫したストーリー生成のために設計された密集した2段階のフレームワークを提案する。
まず,グループ共有注意(Group-Shared Attention, GSA)を導入する。これは,注意層内の無意味なクロスサンプル情報フローを可能にすることによって,本質的な一貫性を促進するメカニズムである。
これにより、モデルは外部エンコーダに頼ることなく、フレーム間の同一性対応を構造的にエンコードできる。
第2に、DPO(Direct Preference Optimization)を利用して、生成した出力を人間の美学と物語の基準に合わせる。
相反する補助的損失に依存する従来の方法とは異なり、本手法は全体的嗜好データから学習することで、視覚的忠実度とアイデンティティ保存を同時に向上させる。
ViStoryBenchベンチマークの大規模評価では,高忠実度生成を保ちながら,キャラクタアイデンティティ(CIDS)が+10.0,スタイル一貫性(CSD)が+18.7という高いベースラインを著しく上回っている。
関連論文リスト
- Infinite-Story: A Training-Free Consistent Text-to-Image Generation [21.872330710303036]
Infinite-Storyは、一貫したテキスト・ツー・イメージ(T2I)生成のためのトレーニング不要のフレームワークである。
本手法は, 整合性T2I生成における2つの重要な課題, 同一性不整合とスタイル不整合に対処する。
提案手法は,既存の高速なT2Iモデルよりも6倍高速な推論(画像1枚あたり1.72秒)を提供するとともに,最先端の生成性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T05:46:16Z) - Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching [1.9270911143386336]
被写体駆動画像生成は、様々な文脈において、特定の被写体の新たな描写を合成することを目的としている。
潜在連結戦略を用いたLoRA微調整拡散モデルを提案する。
フィルタリングと品質評価のために, きめ細かい評価フレームワークCHARISを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:00:32Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - StyDeco: Unsupervised Style Transfer with Distilling Priors and Semantic Decoupling [5.12285618196312]
StyDecoは、スタイル転送タスクに適したテキスト表現を学習する教師なしのフレームワークである。
本フレームワークは, 構造的忠実度と構造的保存性の両方において, 既存手法より優れる。
論文 参考訳(メタデータ) (2025-08-02T06:17:23Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。