論文の概要: Splicing ViT Features for Semantic Appearance Transfer
- arxiv url: http://arxiv.org/abs/2201.00424v1
- Date: Sun, 2 Jan 2022 22:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 20:32:53.994354
- Title: Splicing ViT Features for Semantic Appearance Transfer
- Title(参考訳): 意味的外観伝達のためのスプライシングvit特徴
- Authors: Narek Tumanyan, Omer Bar-Tal, Shai Bagon, Tali Dekel
- Abstract要約: 本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
- 参考スコア(独自算出の注目度): 10.295754142142686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for semantically transferring the visual appearance of
one natural image to another. Specifically, our goal is to generate an image in
which objects in a source structure image are "painted" with the visual
appearance of their semantically related objects in a target appearance image.
Our method works by training a generator given only a single
structure/appearance image pair as input. To integrate semantic information
into our framework - a pivotal component in tackling this task - our key idea
is to leverage a pre-trained and fixed Vision Transformer (ViT) model which
serves as an external semantic prior. Specifically, we derive novel
representations of structure and appearance extracted from deep ViT features,
untwisting them from the learned self-attention modules. We then establish an
objective function that splices the desired structure and appearance
representations, interweaving them together in the space of ViT features. Our
framework, which we term "Splice", does not involve adversarial training, nor
does it require any additional input information such as semantic segmentation
or correspondences, and can generate high-resolution results, e.g., work in HD.
We demonstrate high quality results on a variety of in-the-wild image pairs,
under significant variations in the number of objects, their pose and
appearance.
- Abstract(参考訳): 本稿では,ある自然画像の視覚的外観を他へ意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
本手法は,入力として1つの構造/外観画像ペアのみを与えられたジェネレータを訓練する。
セマンティック情報をフレームワーク - このタスクに取り組む上で重要なコンポーネント - に統合するために、私たちのキーとなるアイデアは、事前トレーニングされた固定されたビジョントランスフォーマー(ViT)モデルを活用することです。
具体的には、深部 ViT 特徴から抽出された構造と外観の新たな表現を導出し、学習した自己注意モジュールからそれらを解き放つ。
次に、所望の構造と外観表現を分割し、それらをViT特徴空間に織り込む客観的関数を確立する。
我々のフレームワークは「スプライス」と呼ばれ、敵対的な訓練を伴わず、セマンティックセグメンテーションや対応のような追加の入力情報も必要とせず、HDでの作業のような高精細な結果を生成することができる。
対象物数,ポーズ,外観に有意な変化を伴って,様々な画像対に対して高品質な結果を示す。
関連論文リスト
- Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。
また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。
フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文 参考訳(メタデータ) (2024-06-03T17:58:43Z) - Disentangling Structure and Appearance in ViT Feature Space [26.233355454282446]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
本研究では,特定の領域から画像のデータセットに基づいて学習したフィードフォワードリアルタイムな外見伝達モデルであるSpliceNetと,一対の構造化画像に対してジェネレータをトレーニングすることで機能するセマンティックな外見伝達の2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-20T21:20:15Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - SAC-GAN: Structure-Aware Image-to-Image Composition for Self-Driving [18.842432515507035]
自動運転車のための画像拡張のための構成的アプローチを提案する。
オブジェクトイメージから収穫パッチとして表現されたオブジェクトを、バックグラウンドシーンイメージにシームレスに構成するように訓練された、エンドツーエンドのニューラルネットワークである。
合成画像の品質, 構成性, 一般化性の観点から, 我々のネットワーク, SAC-GAN による構造認識合成の評価を行った。
論文 参考訳(メタデータ) (2021-12-13T12:24:50Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。