論文の概要: Q-Align: Alleviating Attention Leakage in Zero-Shot Appearance Transfer via Query-Query Alignment
- arxiv url: http://arxiv.org/abs/2508.21090v1
- Date: Wed, 27 Aug 2025 09:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.81504
- Title: Q-Align: Alleviating Attention Leakage in Zero-Shot Appearance Transfer via Query-Query Alignment
- Title(参考訳): Q-Align: クエリアライメントによるゼロショット外観伝達における注意漏れを軽減する
- Authors: Namu Kim, Wonbin Kweon, Minsoo Kim, Hwanjo Yu,
- Abstract要約: 我々はQ-Alignを導入し、クエリークエリアライメントを利用して、ゼロショットの外観転送における注意漏れを軽減する。
Q-Align は,(1) クエリのアライメント,(2) キー値のアライメント,機能対応の強化,(3) キーのアライメントと値のアライメントによるセマンティックセマンティクスの維持,という3つのコアコントリビューションを取り入れている。
実験と分析によりQ-Alignの有効性を検証し、Q-Alignは競合保存構造を維持しつつ外観の忠実さにおいて最先端の手法より優れることを示す。
- 参考スコア(独自算出の注目度): 19.343978101805025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We observe that zero-shot appearance transfer with large-scale image generation models faces a significant challenge: Attention Leakage. This challenge arises when the semantic mapping between two images is captured by the Query-Key alignment. To tackle this issue, we introduce Q-Align, utilizing Query-Query alignment to mitigate attention leakage and improve the semantic alignment in zero-shot appearance transfer. Q-Align incorporates three core contributions: (1) Query-Query alignment, facilitating the sophisticated spatial semantic mapping between two images; (2) Key-Value rearrangement, enhancing feature correspondence through realignment; and (3) Attention refinement using rearranged keys and values to maintain semantic consistency. We validate the effectiveness of Q-Align through extensive experiments and analysis, and Q-Align outperforms state-of-the-art methods in appearance fidelity while maintaining competitive structure preservation.
- Abstract(参考訳): 大規模画像生成モデルによるゼロショットの外観伝達は,注意漏れという大きな課題に直面している。
この課題は、2つの画像間のセマンティックマッピングがQuery-Keyアライメントによってキャプチャされるときに発生する。
この問題に対処するために、Q-Alignを導入し、Query-Queryアライメントを活用し、アテンションリークを緩和し、ゼロショットの外観転送におけるセマンティックアライメントを改善する。
Q-Align は,(1) クエリのアライメント,(2) キー値のアライメント,機能対応の強化,(3) キーのアライメントと値のアライメントによるセマンティックセマンティクスの維持,という3つのコアコントリビューションを取り入れている。
我々は,Q-Alignの有効性を広範囲な実験と分析により検証し,Q-Alignは,競争構造保存を維持しつつ,外観忠実度における最先端の手法より優れることを示した。
関連論文リスト
- OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。
可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。
ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文 参考訳(メタデータ) (2025-03-31T10:17:01Z) - Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文 参考訳(メタデータ) (2024-08-29T03:12:04Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Asymmetric Cross-Scale Alignment for Text-Based Person Search [15.618984100653348]
テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。
マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-26T08:34:35Z) - ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer [33.603064903549985]
ASpanFormerはトランスフォーマーベースのディテクターフリーのマーカで、階層的なアテンション構造の上に構築されている。
本稿では,自己適応的に注意範囲を調整できる新しい注意操作を提案する。
これらの方法により、長距離依存を維持できるだけでなく、高関連性の画素間で微妙な注意を喚起することができる。
論文 参考訳(メタデータ) (2022-08-30T12:21:15Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z) - Devil's in the Details: Aligning Visual Clues for Conditional Embedding
in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。
CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-11T06:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。