論文の概要: Storybooth: Training-free Multi-Subject Consistency for Improved Visual Storytelling
- arxiv url: http://arxiv.org/abs/2504.05800v1
- Date: Tue, 08 Apr 2025 08:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:40.918630
- Title: Storybooth: Training-free Multi-Subject Consistency for Improved Visual Storytelling
- Title(参考訳): Storybooth: 改善されたビジュアルストーリーテリングのためのトレーニング不要なマルチオブジェクト一貫性
- Authors: Jaskirat Singh, Junshen Kevin Chen, Jonas Kohler, Michael Cohen,
- Abstract要約: クロスフレームの自己アテンションは、自己アテンション計算中に各フレームのトークンが他のフレームのトークンに注意を払わせることによって、主観的一貫性を改善する。
本稿では,複数文字間の一貫性を確保する上で,自己意識の低下がさらに悪化していることを明らかにする。
これらの知見に触発されて,複数文字の整合性を改善するためのトレーニング不要アプローチであるStoryBoothを提案する。
- 参考スコア(独自算出の注目度): 5.713041172936274
- License:
- Abstract: Training-free consistent text-to-image generation depicting the same subjects across different images is a topic of widespread recent interest. Existing works in this direction predominantly rely on cross-frame self-attention; which improves subject-consistency by allowing tokens in each frame to pay attention to tokens in other frames during self-attention computation. While useful for single subjects, we find that it struggles when scaling to multiple characters. In this work, we first analyze the reason for these limitations. Our exploration reveals that the primary-issue stems from self-attention-leakage, which is exacerbated when trying to ensure consistency across multiple-characters. This happens when tokens from one subject pay attention to other characters, causing them to appear like each other (e.g., a dog appearing like a duck). Motivated by these findings, we propose StoryBooth: a training-free approach for improving multi-character consistency. In particular, we first leverage multi-modal chain-of-thought reasoning and region-based generation to apriori localize the different subjects across the desired story outputs. The final outputs are then generated using a modified diffusion model which consists of two novel layers: 1) a bounded cross-frame self-attention layer for reducing inter-character attention leakage, and 2) token-merging layer for improving consistency of fine-grain subject details. Through both qualitative and quantitative results we find that the proposed approach surpasses prior state-of-the-art, exhibiting improved consistency across both multiple-characters and fine-grain subject details.
- Abstract(参考訳): 異なる画像にまたがって同じ主題を描いている訓練のない一貫したテキスト・画像生成は、近年広く関心を集めているトピックである。
これは、各フレーム内のトークンが、自己アテンション計算中に他のフレーム内のトークンに注意を払わせることによって、被写体一貫性を向上させる。
単体では便利だが、複数の文字にスケールするのに苦労している。
本研究では,これらの制約の理由をまず分析する。
調査の結果,主成分は,複数文字間の一貫性を確保する上で,自己意識の低下が原因であることが判明した。
これは、ある被験者のトークンが他のキャラクターに注意を払って、お互いのように見える(例えば、アヒルのように見える犬)。
これらの知見に触発されて,複数文字の整合性を改善するためのトレーニング不要アプローチであるStoryBoothを提案する。
特に,まずマルチモーダル・チェーン・オブ・ソート・推論と地域ベース・ジェネレーションを活用して,所望のストーリー・アウトプットにまたがって異なる主題をローカライズする。
最終的な出力は、2つの新しいレイヤからなる変更拡散モデルを使って生成される。
1 文字間注意漏れを低減するための有界クロスフレーム自己注意層及び
2)細粒度詳細の整合性を改善するためのトークンマージ層。
定性的かつ定量的な結果から,提案手法は先行技術に勝るものの,複数文字間の整合性が向上していることがわかった。
関連論文リスト
- Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Towards the Unseen: Iterative Text Recognition by Distilling from Errors [41.43280922432707]
先行芸術は、ほとんど目に見えない(または稀に見られる)キャラクターのシーケンスを認識することに苦慮している。
我々はこの「目に見えない」問題に対処するための新しい枠組みを提唱した。
私たちの成功の鍵は、ユニークなクロスモーダル変分オートエンコーダです。
論文 参考訳(メタデータ) (2021-07-26T10:06:42Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。