論文の概要: DeCorStory: Gram-Schmidt Prompt Embedding Decorrelation for Consistent Storytelling
- arxiv url: http://arxiv.org/abs/2602.01306v1
- Date: Sun, 01 Feb 2026 16:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.706784
- Title: DeCorStory: Gram-Schmidt Prompt Embedding Decorrelation for Consistent Storytelling
- Title(参考訳): DeCorStory: 一貫性のあるストーリーテリングのためのデコレーションを組み込んだGram-Schmidt Prompt
- Authors: Ayushman Sarkar, Zhenyu Yu, Mohd Yamani Idna Idris,
- Abstract要約: DeCorStoryは、フレーム間のセマンティック干渉を減らす、トレーニング不要な推論時間フレームワークである。
フレームレベルのセマンティクスに即時埋め込みデコリレーションを適用し、続いて特異値の再重み付けを行い、プロンシブ固有情報を強化する。
実験は、迅速なイメージアライメント、アイデンティティの整合性、視覚的多様性において一貫した改善を示す。
- 参考スコア(独自算出の注目度): 1.7683026013361776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maintaining visual and semantic consistency across frames is a key challenge in text-to-image storytelling. Existing training-free methods, such as One-Prompt-One-Story, concatenate all prompts into a single sequence, which often induces strong embedding correlation and leads to color leakage, background blending, and identity drift. We propose DeCorStory, a training-free inference-time framework that explicitly reduces inter-frame semantic interference. DeCorStory applies Gram-Schmidt prompt embedding decorrelation to orthogonalize frame-level semantics, followed by singular value reweighting to strengthen prompt-specific information and identity-preserving cross-attention to stabilize character identity during diffusion. The method requires no model modification or fine-tuning and can be seamlessly integrated into existing diffusion pipelines. Experiments demonstrate consistent improvements in prompt-image alignment, identity consistency, and visual diversity, achieving state-of-the-art performance among training-free baselines. Code is available at: https://github.com/YuZhenyuLindy/DeCorStory
- Abstract(参考訳): フレーム間の視覚的および意味的な一貫性を維持することは、ストーリーテリングにおける重要な課題である。
One-Prompt-One-Storyのような既存のトレーニング不要のメソッドは、すべてのプロンプトを単一のシーケンスに結合し、強い埋め込み相関を誘導し、色漏れ、バックグラウンドブレンディング、アイデンティティドリフトを引き起こす。
DeCorStoryは、フレーム間のセマンティック干渉を明示的に低減する、トレーニング不要な推論時間フレームワークである。
DeCorStoryは、フレームレベルのセマンティクスを直交化するためにGram-Schmidtプロンプトデコリレーションを適用し、続いて特異値再重み付けを行い、プロンプト固有の情報を強化する。
この方法はモデル修正や微調整を必要とせず、既存の拡散パイプラインにシームレスに統合することができる。
実験では、即時アライメント、アイデンティティの整合性、視覚的多様性が一貫した改善を示し、トレーニング不要のベースライン間の最先端のパフォーマンスを実現している。
コードは、https://github.com/YuZhenyuLindy/DeCorStoryで入手できる。
関連論文リスト
- StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives [7.243114047801061]
本稿では、時間的コヒーレントなアイデンティティ保存画像列を生成するゼロショットパイプラインを提案する。
ストーリーは表現力のあるインタラクションを提供し、安定したシーンを進化させる。
論文 参考訳(メタデータ) (2026-02-24T16:07:02Z) - ReDiStory: Region-Disentangled Diffusion for Consistent Visual Story Generation [6.4611000755192585]
ReDiStoryはトレーニング不要のフレームワークで、推論時プロンプトの組込みによる複数フレームのストーリー生成を改善する。
拡散パラメータを変更したり、追加の監視を必要とすることなく、クロスフレーム干渉を低減する。
ConsiStory+ベンチマークの実験では、複数のID整合性において、1Prompt1Storyよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-01T16:04:40Z) - Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文 参考訳(メタデータ) (2026-01-10T16:01:14Z) - ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation [14.341691123354195]
ASemconsistは、プロンプトアライメントを犠牲にすることなく、文字アイデンティティの明示的な意味制御を可能にする。
我々のフレームワークは最先端のパフォーマンスを実現し、実質的に以前のトレードオフを克服します。
論文 参考訳(メタデータ) (2025-12-29T07:06:57Z) - SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning [53.638998508418545]
本稿では,画像の協調とキャプション'(セグキャプション)を新たに導入する。
SegCaptioningは、オブジェクトを囲むバウンディングボックスのような直接的なプロンプトを、(カプセル、マスク)ペアで表されるさまざまな意味解釈に変換することを目的としている。
このタスクは、ユーザの意図を最小限のプロンプトから正確に把握し、同時に複数の意味的に整列したキャプションワードとマスクを予測するなど、大きな課題を生じさせる。
論文 参考訳(メタデータ) (2025-12-01T18:33:04Z) - Infinite-Story: A Training-Free Consistent Text-to-Image Generation [21.872330710303036]
Infinite-Storyは、一貫したテキスト・ツー・イメージ(T2I)生成のためのトレーニング不要のフレームワークである。
本手法は, 整合性T2I生成における2つの重要な課題, 同一性不整合とスタイル不整合に対処する。
提案手法は,既存の高速なT2Iモデルよりも6倍高速な推論(画像1枚あたり1.72秒)を提供するとともに,最先端の生成性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T05:46:16Z) - ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。
画像除去・分離方式のタスクチェイン・コンポジトリを提案する。
また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文 参考訳(メタデータ) (2025-06-04T10:06:32Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。