論文の概要: ReDiStory: Region-Disentangled Diffusion for Consistent Visual Story Generation
- arxiv url: http://arxiv.org/abs/2602.01303v1
- Date: Sun, 01 Feb 2026 16:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.704106
- Title: ReDiStory: Region-Disentangled Diffusion for Consistent Visual Story Generation
- Title(参考訳): ReDiStory: 一貫性のあるビジュアルストーリー生成のための領域差拡散
- Authors: Ayushman Sarkar, Zhenyu Yu, Chu Chen, Wei Tang, Kangning Cui, Mohd Yamani Idna Idris,
- Abstract要約: ReDiStoryはトレーニング不要のフレームワークで、推論時プロンプトの組込みによる複数フレームのストーリー生成を改善する。
拡散パラメータを変更したり、追加の監視を必要とすることなく、クロスフレーム干渉を低減する。
ConsiStory+ベンチマークの実験では、複数のID整合性において、1Prompt1Storyよりも一貫した利得を示している。
- 参考スコア(独自算出の注目度): 6.4611000755192585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating coherent visual stories requires maintaining subject identity across multiple images while preserving frame-specific semantics. Recent training-free methods concatenate identity and frame prompts into a unified representation, but this often introduces inter-frame semantic interference that weakens identity preservation in complex stories. We propose ReDiStory, a training-free framework that improves multi-frame story generation via inference-time prompt embedding reorganization. ReDiStory explicitly decomposes text embeddings into identity-related and frame-specific components, then decorrelates frame embeddings by suppressing shared directions across frames. This reduces cross-frame interference without modifying diffusion parameters or requiring additional supervision. Under identical diffusion backbones and inference settings, ReDiStory improves identity consistency while maintaining prompt fidelity. Experiments on the ConsiStory+ benchmark show consistent gains over 1Prompt1Story on multiple identity consistency metrics. Code is available at: https://github.com/YuZhenyuLindy/ReDiStory
- Abstract(参考訳): コヒーレントなビジュアルストーリーを生成するには、フレーム固有のセマンティクスを保持しながら、複数の画像にわたる主観的アイデンティティを維持する必要がある。
最近の訓練不要な手法はアイデンティティとフレームのプロンプトを統一した表現へと結合するが、複雑なストーリーにおけるアイデンティティの保存を弱めるようなフレーム間セマンティックな干渉をもたらすことが多い。
Inference-time prompt embedded reorganizationにより,マルチフレームストーリー生成を改善するトレーニングフリーフレームワークであるReDiStoryを提案する。
ReDiStoryは、テキストの埋め込みをアイデンティティ関連のコンポーネントとフレーム固有のコンポーネントに明示的に分解し、フレーム間の共有方向を抑えることによってフレームの埋め込みをデコレーションする。
これにより、拡散パラメータを変更したり、追加の監視を必要とすることなく、クロスフレームの干渉を減らすことができる。
同じ拡散バックボーンと推論設定の下で、ReDiStoryは迅速な忠実さを維持しながらアイデンティティの一貫性を改善している。
ConsiStory+ベンチマークの実験では、複数のID整合性メトリクスにおいて、1Prompt1Storyよりも一貫した利得を示している。
コードは、https://github.com/YuZhenyuLindy/ReDiStoryで入手できる。
関連論文リスト
- DeCorStory: Gram-Schmidt Prompt Embedding Decorrelation for Consistent Storytelling [1.7683026013361776]
DeCorStoryは、フレーム間のセマンティック干渉を減らす、トレーニング不要な推論時間フレームワークである。
フレームレベルのセマンティクスに即時埋め込みデコリレーションを適用し、続いて特異値の再重み付けを行い、プロンシブ固有情報を強化する。
実験は、迅速なイメージアライメント、アイデンティティの整合性、視覚的多様性において一貫した改善を示す。
論文 参考訳(メタデータ) (2026-02-01T16:07:30Z) - ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation [14.341691123354195]
ASemconsistは、プロンプトアライメントを犠牲にすることなく、文字アイデンティティの明示的な意味制御を可能にする。
我々のフレームワークは最先端のパフォーマンスを実現し、実質的に以前のトレードオフを克服します。
論文 参考訳(メタデータ) (2025-12-29T07:06:57Z) - ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation [36.29956463871403]
テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。
テキストと単一の参照画像から文字一貫性のある映像を生成するコンテキスト対応拡散フレームワークである textbfContextAnyone を提案する。
提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
論文 参考訳(メタデータ) (2025-12-08T09:12:18Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。