論文の概要: Object Isolated Attention for Consistent Story Visualization
- arxiv url: http://arxiv.org/abs/2503.23353v1
- Date: Sun, 30 Mar 2025 08:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.074081
- Title: Object Isolated Attention for Consistent Story Visualization
- Title(参考訳): 一貫性のあるストーリー可視化のためのオブジェクト分離アテンション
- Authors: Xiangyang Luo, Junhao Cheng, Yifan Xie, Xin Zhang, Tao Feng, Zhou Liu, Fei Ma, Fei Yu,
- Abstract要約: オープンエンドのストーリービジュアライゼーションは、与えられたストーリーラインからコヒーレントなイメージシーケンスを生成することを伴う、困難なタスクである。
主な課題の1つは、自然でコンテキストに適合したシーンを作成しながら、文字の一貫性を維持することである。
本稿では,異なる自己注意と相互注意機構を用いたトランスフォーマーモジュールを提案する。
- 参考スコア(独自算出の注目度): 16.721634474902036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended story visualization is a challenging task that involves generating coherent image sequences from a given storyline. One of the main difficulties is maintaining character consistency while creating natural and contextually fitting scenes--an area where many existing methods struggle. In this paper, we propose an enhanced Transformer module that uses separate self attention and cross attention mechanisms, leveraging prior knowledge from pre-trained diffusion models to ensure logical scene creation. The isolated self attention mechanism improves character consistency by refining attention maps to reduce focus on irrelevant areas and highlight key features of the same character. Meanwhile, the isolated cross attention mechanism independently processes each character's features, avoiding feature fusion and further strengthening consistency. Notably, our method is training-free, allowing the continuous generation of new characters and storylines without re-tuning. Both qualitative and quantitative evaluations show that our approach outperforms current methods, demonstrating its effectiveness.
- Abstract(参考訳): オープンエンドのストーリービジュアライゼーションは、与えられたストーリーラインからコヒーレントなイメージシーケンスを生成することを伴う、困難なタスクである。
主な課題の1つは、多くの既存手法が苦労する領域である自然でコンテキストに適合するシーンを作成しながら、文字の一貫性を維持することである。
本稿では,事前学習した拡散モデルからの事前知識を利用して,自己注意と相互注意のメカニズムを分離したトランスフォーマーモジュールを提案する。
孤立した自己注意機構は、注意マップを精細化し、無関係な領域への注目を減らし、同一文字の重要な特徴を強調することにより、文字の一貫性を向上させる。
一方、分離されたクロスアテンション機構は、各文字の特徴を独立して処理し、特徴融合を避け、一貫性をさらに強化する。
特に,本手法はトレーニング不要であり,新たなキャラクターやストーリーラインを再現することなく連続的に生成することができる。
定性評価と定量的評価の両方により,本手法が現在の手法より優れており,その有効性が示されている。
関連論文リスト
- Storybooth: Training-free Multi-Subject Consistency for Improved Visual Storytelling [5.713041172936274]
クロスフレームの自己アテンションは、自己アテンション計算中に各フレームのトークンが他のフレームのトークンに注意を払わせることによって、主観的一貫性を改善する。
本稿では,複数文字間の一貫性を確保する上で,自己意識の低下がさらに悪化していることを明らかにする。
これらの知見に触発されて,複数文字の整合性を改善するためのトレーニング不要アプローチであるStoryBoothを提案する。
論文 参考訳(メタデータ) (2025-04-08T08:30:55Z) - Enhanced Multi-Scale Cross-Attention for Person Image Generation [140.90068397518655]
課題のある人物画像生成タスクに対して,新たにGAN(cross-attention-based generative adversarial network)を提案する。
クロスアテンション(Cross-attention)は、異なるモードの2つの特徴写像間で注意/相関行列を計算する、新しく直感的なマルチモーダル融合法である。
異なる段階における外観・形状特徴を効果的に融合させるために, 密結合型コアテンションモジュールを新たに導入する。
論文 参考訳(メタデータ) (2025-01-15T16:08:25Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - CoCoNO: Attention Contrast-and-Complete for Initial Noise Optimization in Text-to-Image Synthesis [8.386261591495103]
自己注意マップと相互注意マップの相補的な情報を活用することで、初期潜伏者を最適化する新しいアルゴリズムであるCoCoNOを導入する。
本手法では,各自己注意区間が特定の被験者のクロスアテンションマップにのみリンクされていることを保証することで,所望のオーバーラップを最小化するアテンションコントラストロスと,これらのセグメント内でのアクティベーションを最大化し,各被写体が完全に明確に表現されることを保証するアテンション完全ロスという2つの新たなロス関数を導入する。
論文 参考訳(メタデータ) (2024-11-25T08:20:14Z) - Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge [33.35678923549471]
textbfFreeCureはパーソナライゼーションモデルの迅速な一貫性を改善するフレームワークである。
本稿では, 個人化プロセスに適切な属性情報をもたらすための, インバージョンベースのプロセスと合わせて, ファンデーションを意識した新たな自己意識モジュールを提案する。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、迅速な一貫性を顕著に向上させた。
論文 参考訳(メタデータ) (2024-11-22T15:21:38Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。