論文の概要: QS-Attn: Query-Selected Attention for Contrastive Learning in I2I
Translation
- arxiv url: http://arxiv.org/abs/2203.08483v1
- Date: Wed, 16 Mar 2022 09:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:45:39.980785
- Title: QS-Attn: Query-Selected Attention for Contrastive Learning in I2I
Translation
- Title(参考訳): QS-Attn: I2I翻訳におけるコントラスト学習のためのクエリ選択注意
- Authors: Xueqi Hu, Xinyue Zhou, Qiusheng Huang, Zhengyi Shi, Li Sun, Qingli Li
- Abstract要約: I2I (Unpaired Image-to-image) 翻訳では、ソースと変換された画像間の相互情報の最大化が要求されることが多い。
自己教師付きコントラスト学習はI2Iですでに成功している。
本稿では,これらの問題に対して,コントラスト学習のための重要なアンカーポイントを意図的に選択することで対処する。
- 参考スコア(独自算出の注目度): 12.422851944420582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unpaired image-to-image (I2I) translation often requires to maximize the
mutual information between the source and the translated images across
different domains, which is critical for the generator to keep the source
content and prevent it from unnecessary modifications. The self-supervised
contrastive learning has already been successfully applied in the I2I. By
constraining features from the same location to be closer than those from
different ones, it implicitly ensures the result to take content from the
source. However, previous work uses the features from random locations to
impose the constraint, which may not be appropriate since some locations
contain less information of source domain. Moreover, the feature itself does
not reflect the relation with others. This paper deals with these problems by
intentionally selecting significant anchor points for contrastive learning. We
design a query-selected attention (QS-Attn) module, which compares feature
distances in the source domain, giving an attention matrix with a probability
distribution in each row. Then we select queries according to their measurement
of significance, computed from the distribution. The selected ones are regarded
as anchors for contrastive loss. At the same time, the reduced attention matrix
is employed to route features in both domains, so that source relations
maintain in the synthesis. We validate our proposed method in three different
I2I datasets, showing that it increases the image quality without adding
learnable parameters.
- Abstract(参考訳): unpaired image-to-image (i2i) 翻訳では、ソースと翻訳された画像間の相互情報を異なるドメインにまたがって最大化する必要がある。
自己教師付きコントラスト学習はI2Iですでに成功している。
同じ場所から機能を異なる場所のものよりも近いものに制限することで、結果がソースから取り込まれることを暗黙的に保証する。
しかし、以前の作業では、制約を課すためにランダムな場所からのフィーチャを使っているが、ソースドメインの情報が少ない場所もあるため、適切ではないかもしれない。
さらに、この機能自体は他者との関係を反映していない。
本稿では,コントラスト学習のための重要なアンカーポイントを意図的に選択することで,これらの問題に対処する。
本研究では,クエリ選択型アテンション(QS-Attn)モジュールを設計し,ソース領域の特徴距離を比較し,各行の確率分布に注意行列を与える。
次に,分布から計算した重要度測定に基づいて問合せを選択する。
選択されたものは、コントラスト損失のアンカーと見なされる。
同時に、両方のドメインで特徴をルーティングするために注意行列を縮小することにより、ソース関係が合成において維持される。
提案手法を3つのi2iデータセットで検証し,学習可能なパラメータを付加することなく画質を向上できることを示した。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Ranking-aware Uncertainty for Text-guided Image Retrieval [17.70430913227593]
本稿では,多対多対応をモデル化する新しいランキングアウェア不確実性手法を提案する。
既存の最先端手法と比較して,提案手法は2つの公開データセットに対して有意な結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T03:48:19Z) - Discriminative Co-Saliency and Background Mining Transformer for
Co-Salient Object Detection [111.04994415248736]
我々は差別的共存とバックグラウンドマイニング・トランスフォーマー・フレームワーク(DMT)を提案する。
我々は2種類の事前定義されたトークンを用いて、コントラスト誘起画素間相関モジュールとコサリエンストークン間相関モジュールを用いて、コサリエンシと背景情報をマイニングする。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-30T15:56:47Z) - Coarse-to-Fine Point Cloud Registration with SE(3)-Equivariant
Representations [24.772676537277547]
ポイントクラウド登録はコンピュータビジョンとロボティクスにおいて重要な問題である。
どちらも同時に処理する粗大なパイプラインを採用しています。
提案手法は,最先端手法と比較してリコール率を20%向上させる。
論文 参考訳(メタデータ) (2022-10-05T06:35:01Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Dual-Stream Reciprocal Disentanglement Learning for Domain Adaption
Person Re-Identification [44.80508095481811]
本稿では,Dual-stream Reciprocal Disentanglement Learning (DRDL) という新しい手法を提案する。
DRDLでは、まず2つのエンコーダがID関連およびID非関連の特徴抽出のために構築され、それぞれ関連する分類器によって測定される。
提案手法は,計算複雑性を著しく低減するだけでなく,ID関連の特徴から冗長な情報を除去する。
論文 参考訳(メタデータ) (2021-06-26T03:05:23Z) - Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。
提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。
我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文 参考訳(メタデータ) (2021-06-15T02:41:12Z) - Local Propagation for Few-Shot Learning [13.729138917245931]
2つの方向は (a) 局所的な画像表現を使い、基本的に定数係数でデータの量を乗算し、 (b) よりラベルのないデータを使って、複数のクエリを共同で行う。
本研究では,これら2つのアイデアをまとめて,emphlocal propagationを導入する。
我々は,非帰納的および帰納的両方の設定下での少数ショット推論に対して,普遍的に安全な選択肢を提供し,対応する手法よりも精度を向上する。
論文 参考訳(メタデータ) (2021-01-05T12:26:23Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Domain Siamese CNNs for Sparse Multispectral Disparity Estimation [15.065764374430783]
そこで本研究では,異なるスペクトルの画像間の不均一性を推定できる新しいCNNアーキテクチャを提案する。
LITIV 2014およびLITIV 2018データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-30T20:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。