論文の概要: RealDiffusion: Physics-informed Attention for Multi-character Storybook Generation
- arxiv url: http://arxiv.org/abs/2605.11927v1
- Date: Tue, 12 May 2026 10:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.801878
- Title: RealDiffusion: Physics-informed Attention for Multi-character Storybook Generation
- Title(参考訳): RealDiffusion: 複数文字のストーリーブック生成のための物理インフォームド・アテンション
- Authors: Qi Zhao, Jun Chen, Ivor Tsang, Guang Dai,
- Abstract要約: リアルディフュージョン(RealDiffusion)は、物語的ダイナミズムと物語的コヒーレンスを調和させる枠組みである。
熱拡散は、その配列に沿って隣接する特徴を平均する散逸前として機能する。
地域を意識したプロセスは、近くのモードを探索する摂動を排除し、ストーリーが変化とシーンの進化のポーズを維持するために崩壊を防ぐ。
- 参考スコア(独自算出の注目度): 31.320456668679554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern diffusion models excel at generating diverse single images, extending this to sequential generation reveals a fundamental challenge: balancing narrative dynamism with multi-character coherence. Existing methods often falter at this trade-off, leading to artifacts where characters lose their identity or the story stagnates. To resolve this critical tension, we introduce RealDiffusion, a unified framework designed to reconcile robust coherence with narrative dynamism. Heat diffusion serves as a dissipative prior that averages neighboring features along the sequence and removes high-frequency noise within the subject region. This suppresses attribute drift and stabilizes identity across frames. A region-aware stochastic process then introduces small perturbations that explore nearby modes and prevent collapse so the story maintains pose change and scene evolution. We thus introduce a lightweight, training-free Physics-informed Attention mechanism that injects controllable physical priors into the self-attention layers during inference. By modeling feature evolution as a configurable physical system, our method regularizes spatio-temporal relationships without suppressing intentional, prompt-driven changes. Extensive experiments demonstrate that RealDiffusion achieves substantial gains in character coherence while preserving narrative dynamism, outperforming state-of-the-art approaches. Code is available at https://github.com/ShmilyQi-CN/RealDiffusion.
- Abstract(参考訳): 現代の拡散モデルは多様な単一画像を生成するのに優れているが、これを逐次生成に拡張することは、物語ダイナミズムとマルチ文字コヒーレンスとのバランスをとるという根本的な課題を明らかにする。
既存の手法は、しばしばこのトレードオフに干渉し、キャラクターがアイデンティティを失うか、ストーリーが停滞するアーティファクトに繋がる。
この批判的緊張を解決するために,物語ダイナミズムと堅牢なコヒーレンスを調和させる統合フレームワークであるRealDiffusionを導入する。
熱拡散は、その配列に沿って隣接する特徴を平均化し、被写体領域内の高周波ノイズを除去する散逸前として機能する。
これにより属性のドリフトが抑制され、フレーム間のアイデンティティが安定化される。
地域を意識した確率的プロセスは、近くのモードを探索して崩壊を防ぐ小さな摂動を導入し、ストーリーは変化とシーンの進化のポーズを維持する。
そこで本研究では,制御可能な物理前兆を推論中に自己注意層に注入する,軽量でトレーニング不要な物理インフォームド・アテンション機構を導入する。
構成可能な物理システムとして機能進化をモデル化することにより,意図的,即時的な変化を抑えることなく時空間関係を規則化する。
大規模な実験により、RealDiffusionは物語のダイナミズムを維持しながらキャラクターのコヒーレンスを著しく向上させ、最先端のアプローチより優れていることが示された。
コードはhttps://github.com/ShmilyQi-CN/RealDiffusion.comで入手できる。
関連論文リスト
- ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search [8.993664585683055]
拡散雑音探索を用いた新しい強度制御型音声ヘッド生成フレームワークである textbfTalk を紹介する。
まず,動作特徴を静的な外観から切り離すスタブファン光フロー誘導時間モジュール(OFT)を提案する。
第2に,マルチモーダル・教師・学生の知識蒸留により得られたtextbfAudio-to-Intensity (A2I) モデルを提案する。
論文 参考訳(メタデータ) (2025-11-10T08:28:13Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - Equilibrium flow: From Snapshots to Dynamics [4.741100658955037]
本稿では,パターン分布を保存する連続力学を学習するフレームワークであるEquilibrium Flow法を紹介する。
グレイ・スコットモデルからの高次元チューリングパターンに対して、基底真理に対する高い忠実性を達成するための効率的で訓練のない変種を開発する。
この能力は既知のシステムの回復を超えて拡張され、人工生命のための逆設計の新しいパラダイムが実現された。
論文 参考訳(メタデータ) (2025-09-22T16:33:20Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - StorySync: Training-Free Subject Consistency in Text-to-Image Generation via Region Harmonization [31.250596607318364]
既存のアプローチは、通常、微調整または再訓練モデルに依存し、計算コストが高く、時間がかかり、しばしば既存のモデルの能力に干渉する。
本稿では,効率的な一貫したオブジェクト生成法を提案する。
実験により,様々なシナリオにまたがって,視覚的に一貫した被写体を生成することができた。
論文 参考訳(メタデータ) (2025-07-31T11:24:40Z) - Object Isolated Attention for Consistent Story Visualization [16.721634474902036]
オープンエンドのストーリービジュアライゼーションは、与えられたストーリーラインからコヒーレントなイメージシーケンスを生成することを伴う、困難なタスクである。
主な課題の1つは、自然でコンテキストに適合したシーンを作成しながら、文字の一貫性を維持することである。
本稿では,異なる自己注意と相互注意機構を用いたトランスフォーマーモジュールを提案する。
論文 参考訳(メタデータ) (2025-03-30T08:16:52Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised
Predictive Learning [75.2748374360642]
そこで本研究では,繰り返し状態間の隠れ構造表現を学習するための新しい手法であるModeRNNを提案する。
データセット全体にわたって、異なるモードがスロットの混合に対して異なるレスポンスをもたらすため、ModeRNNが構造化された表現を構築する能力が向上する。
論文 参考訳(メタデータ) (2021-10-08T03:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。