論文の概要: InstaFormer: Instance-Aware Image-to-Image Translation with Transformer
- arxiv url: http://arxiv.org/abs/2203.16248v1
- Date: Wed, 30 Mar 2022 12:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 22:09:46.264602
- Title: InstaFormer: Instance-Aware Image-to-Image Translation with Transformer
- Title(参考訳): InstaFormer: Transformerを使ったインスタンス対応画像変換
- Authors: Soohyun Kim, Jongbeom Baek, Jihye Park, Gyeongnyeon Kim, Seungryong
Kim
- Abstract要約: InstaFormer という,画像から画像への変換を例に,Transformer ベースの新しいネットワークアーキテクチャを提案する。
我々のフレームワークはオブジェクトインスタンスとグローバルイメージのインタラクションを学習できるので、インスタンス認識が向上します。
- 参考スコア(独自算出の注目度): 28.47907036830384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel Transformer-based network architecture for instance-aware
image-to-image translation, dubbed InstaFormer, to effectively integrate
global- and instance-level information. By considering extracted content
features from an image as tokens, our networks discover global consensus of
content features by considering context information through a self-attention
module in Transformers. By augmenting such tokens with an instance-level
feature extracted from the content feature with respect to bounding box
information, our framework is capable of learning an interaction between object
instances and the global image, thus boosting the instance-awareness. We
replace layer normalization (LayerNorm) in standard Transformers with adaptive
instance normalization (AdaIN) to enable a multi-modal translation with style
codes. In addition, to improve the instance-awareness and translation quality
at object regions, we present an instance-level content contrastive loss
defined between input and translated image. We conduct experiments to
demonstrate the effectiveness of our InstaFormer over the latest methods and
provide extensive ablation studies.
- Abstract(参考訳): グローバルおよびインスタンスレベルの情報を効果的に統合するために,instaformerと呼ばれる,インスタンス認識型画像変換のためのトランスフォーマティブネットワークアーキテクチャを提案する。
画像から抽出したコンテンツ特徴をトークンとして考慮することにより,トランスフォーマーの自己認識モジュールを通じてコンテキスト情報を考慮した,コンテンツ特徴のグローバルコンセンサスを発見する。
このようなトークンをコンテンツ機能から抽出したインスタンスレベルの機能をバウンディングボックス情報に拡張することで,オブジェクトインスタンスとグローバルイメージのインタラクションを学習することが可能となり,インスタンス認識性が向上する。
標準トランスフォーマーの層正規化(layernorm)をadaptive instance normalization(adain)に置き換え、スタイルコードによるマルチモーダル変換を可能にした。
さらに、オブジェクト領域におけるインスタンス認識と翻訳品質を改善するために、入力画像と翻訳画像の間で定義されたインスタンスレベルのコントラスト損失を示す。
最新の方法よりinstaformerの有効性を実証する実験を行い,広範なアブレーション実験を行った。
関連論文リスト
- Contextual Vision Transformers for Robust Representation Learning [10.459236278849938]
本研究ではContextual Vision Transformer(ContextViT)を導入し,複数のグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成する。
ContextViTには、グループ固有の情報をカプセル化するための追加のコンテキストトークンが含まれている。
分布シフトの中で,ContextViTは安定な画像デファチュアライゼーションの学習に優れることを示す。
論文 参考訳(メタデータ) (2023-05-30T20:31:26Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Vector Quantized Image-to-Image Translation [31.65282783830092]
本稿では,ベクトル量子化手法を画像から画像への変換フレームワークに導入することを提案する。
我々のフレームワークは、最新の画像から画像への変換や画像拡張手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-27T04:22:29Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。