論文の概要: Fine-grained Image-to-Image Transformation towards Visual Recognition
- arxiv url: http://arxiv.org/abs/2001.03856v2
- Date: Sat, 13 Jun 2020 02:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:50:28.245786
- Title: Fine-grained Image-to-Image Transformation towards Visual Recognition
- Title(参考訳): きめ細かい画像間変換による視覚認識
- Authors: Wei Xiong, Yutong He, Yixuan Zhang, Wenhan Luo, Lin Ma, Jiebo Luo
- Abstract要約: 我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
- 参考スコア(独自算出の注目度): 102.51124181873101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image-to-image transformation approaches primarily focus on
synthesizing visually pleasing data. Generating images with correct identity
labels is challenging yet much less explored. It is even more challenging to
deal with image transformation tasks with large deformation in poses,
viewpoints, or scales while preserving the identity, such as face rotation and
object viewpoint morphing. In this paper, we aim at transforming an image with
a fine-grained category to synthesize new images that preserve the identity of
the input image, which can thereby benefit the subsequent fine-grained image
recognition and few-shot learning tasks. The generated images, transformed with
large geometric deformation, do not necessarily need to be of high visual
quality but are required to maintain as much identity information as possible.
To this end, we adopt a model based on generative adversarial networks to
disentangle the identity related and unrelated factors of an image. In order to
preserve the fine-grained contextual details of the input image during the
deformable transformation, a constrained nonalignment connection method is
proposed to construct learnable highways between intermediate convolution
blocks in the generator. Moreover, an adaptive identity modulation mechanism is
proposed to transfer the identity information into the output image
effectively. Extensive experiments on the CompCars and Multi-PIE datasets
demonstrate that our model preserves the identity of the generated images much
better than the state-of-the-art image-to-image transformation models, and as a
result significantly boosts the visual recognition performance in fine-grained
few-shot learning.
- Abstract(参考訳): 既存の画像から画像への変換アプローチは、主に視覚的に喜ぶデータの合成に焦点を当てている。
正確な識別ラベルで画像を生成することは、非常に困難である。
顔の回転や物体の視点の変形といったアイデンティティを保ちながら、ポーズ、視点、スケールの大きな変形を伴う画像変換タスクを扱うことは、さらに困難である。
本稿では,入力画像のアイデンティティを保存した新たな画像を生成するために,細粒度カテゴリの画像を変換することを目的としており,それによって,その後のきめ細かい画像認識と数発の学習作業の恩恵を受けることができる。
生成した画像は、大きな幾何学的変形で変換され、必ずしも高画質である必要はないが、できるだけ多くのアイデンティティ情報を保持する必要がある。
この目的のために,画像の同一性および非関連要因を解消するために,生成的逆ネットワークに基づくモデルを採用する。
変形可能な変換中における入力画像の微細なコンテキストの詳細を保存するために, 中間畳み込みブロック間の学習可能なハイウェイを構築するための制約付き非整合接続法を提案する。
さらに、ID情報を出力画像に効果的に転送する適応ID変調機構を提案する。
CompCarsとMulti-PIEデータセットの大規模な実験により、我々のモデルは、最先端の画像-画像変換モデルよりも生成した画像のアイデンティティをはるかに良く保ち、その結果、きめ細かい数ショット学習における視覚認識性能を大幅に向上させることが示された。
関連論文リスト
- Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Learning Transferable Object-Centric Diffeomorphic Transformations for
Data Augmentation in Medical Image Segmentation [4.710950544945832]
医用画像セグメンテーションのための新しいオブジェクト中心データ拡張モデルを提案する。
興味のあるオブジェクトの形状のバリエーションを学習し、画像の残りの部分を変更することなく、オブジェクトをその場で拡張することができる。
同一データセット内から得られた形状変化と外部データセットからの転写の両面から得られた形状変化を利用する場合,腎腫瘍のセグメンテーションを改善する効果を実証した。
論文 参考訳(メタデータ) (2023-07-25T16:54:48Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文 参考訳(メタデータ) (2022-10-03T14:56:05Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Robust Training Using Natural Transformation [19.455666609149567]
画像分類アルゴリズムのロバスト性を改善するための逆学習手法であるNaTraを提案する。
クラス識別とは無関係な入力画像の属性をターゲティングし、それらの属性を操作して実世界の自然変換を模倣します。
本手法の有効性を,よく訓練されたGANから導かれる非絡み合った潜在表現を用いて実証する。
論文 参考訳(メタデータ) (2021-05-10T01:56:03Z) - A 3D GAN for Improved Large-pose Facial Recognition [3.791440300377753]
深層畳み込みニューラルネットワークを用いた顔認識は、顔画像の大きなデータセットの可用性に依存している。
近年の研究では、アイデンティティからポーズを離す方法が不十分であることが示されている。
本研究では,GAN発生器に3次元モーフィラブルモデルを組み込むことにより,野生画像から非線形テクスチャモデルを学習する。
これにより、新しい合成IDの生成と、アイデンティティを損なうことなくポーズ、照明、表現の操作が可能になります。
論文 参考訳(メタデータ) (2020-12-18T22:41:15Z) - Learning to Caricature via Semantic Shape Transform [95.25116681761142]
本稿では,意味的形状変換に基づくアルゴリズムを提案する。
提案手法は,顔の構造を維持しつつ,視覚的に心地よい形状の誇張を表現できることを示す。
論文 参考訳(メタデータ) (2020-08-12T03:41:49Z) - Cross-View Image Synthesis with Deformable Convolution and Attention
Mechanism [29.528402825356398]
本稿では、変形可能な畳み込みとアテンション機構に基づくGAN(Generative Adversarial Networks)を用いて、クロスビュー画像合成の問題を解決することを提案する。
シーンの外観や意味情報を他の視点から理解し、変換することは困難であり、U-netネットワークにおける変形畳み込みを用いて、異なるスケールのオブジェクトの特徴を抽出するネットワークの能力を向上させる。
論文 参考訳(メタデータ) (2020-07-20T03:08:36Z) - Semantic Photo Manipulation with a Generative Image Prior [86.01714863596347]
GANは、ユーザスケッチ、テキスト、セマンティックラベルなどの入力に条件付きイメージを合成することができる。
GANが入力画像を正確に再現することは困難である。
本稿では,GANが以前に学んだイメージを個々の画像の統計に適応させることにより,これらの問題に対処する。
提案手法は,入力画像の外観と一致して,入力画像を正確に再構成し,新たなコンテンツを合成することができる。
論文 参考訳(メタデータ) (2020-05-15T18:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。