論文の概要: Memory-guided Unsupervised Image-to-image Translation
- arxiv url: http://arxiv.org/abs/2104.05170v1
- Date: Mon, 12 Apr 2021 03:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 04:40:53.615993
- Title: Memory-guided Unsupervised Image-to-image Translation
- Title(参考訳): メモリ誘導型教師なし画像-画像間翻訳
- Authors: Somi Jeong, Youngjung Kim, Eungbean Lee, Kwanghoon Sohn
- Abstract要約: インスタンスレベルの画像から画像への変換のための教師なしのフレームワークを提案する。
我々のモデルは最近のインスタンスレベルの手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 54.1903150849536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel unsupervised framework for instance-level image-to-image
translation. Although recent advances have been made by incorporating
additional object annotations, existing methods often fail to handle images
with multiple disparate objects. The main cause is that, during inference, they
apply a global style to the whole image and do not consider the large style
discrepancy between instance and background, or within instances. To address
this problem, we propose a class-aware memory network that explicitly reasons
about local style variations. A key-values memory structure, with a set of
read/update operations, is introduced to record class-wise style variations and
access them without requiring an object detector at the test time. The key
stores a domain-agnostic content representation for allocating memory items,
while the values encode domain-specific style representations. We also present
a feature contrastive loss to boost the discriminative power of memory items.
We show that by incorporating our memory, we can transfer class-aware and
accurate style representations across domains. Experimental results demonstrate
that our model outperforms recent instance-level methods and achieves
state-of-the-art performance.
- Abstract(参考訳): 本稿では,インスタンスレベルの画像・画像翻訳のための新しい教師なしフレームワークを提案する。
最近の進歩は追加のオブジェクトアノテーションの導入によるものだが、既存のメソッドは複数の異なるオブジェクトでイメージを処理できないことが多い。
主な原因は、推論中に全体像にグローバルなスタイルを適用し、インスタンスとバックグラウンド、あるいはインスタンス内の大きなスタイルの相違を考慮していないことである。
この問題に対処するために,ローカルスタイルの変動を明示的に理由づけたクラス対応メモリネットワークを提案する。
クラス毎のスタイルの変化を記録し、テスト時にオブジェクト検出器を必要とせずにアクセスするために、一連の読み取り/更新操作を備えたキー値メモリ構造が導入される。
キーはメモリアイテムを割り当てるためのドメインに依存しないコンテンツ表現を格納し、値はドメイン固有のスタイル表現をエンコードする。
また,メモリ項目の識別能力を高めるために,特徴的コントラスト損失も提示する。
メモリを組み込むことで、ドメイン間でクラス認識と正確なスタイル表現を転送できることを示す。
実験結果から,本モデルが最近のインスタンスレベルの手法より優れ,最先端の性能を実現することが示された。
関連論文リスト
- Improving Object Detection via Local-global Contrastive Learning [27.660633883387753]
本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
論文 参考訳(メタデータ) (2024-10-07T14:18:32Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Open Compound Domain Adaptation with Object Style Compensation for
Semantic Segmentation [23.925791263194622]
本稿では,Object-Level Discrepancy Memoryを構築するObject Style Compensationを提案する。
我々は、ソースドメインとターゲットドメインの画像から相違点の特徴を学習し、相違点の特徴をメモリに格納する。
提案手法は,対象領域の画像に対する疑似アノテーションのより正確な計算を可能にする。
論文 参考訳(メタデータ) (2023-09-28T03:15:47Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。