論文の概要: An Image is Worth More Than a Thousand Words: Towards Disentanglement in
the Wild
- arxiv url: http://arxiv.org/abs/2106.15610v1
- Date: Tue, 29 Jun 2021 17:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:37:45.825809
- Title: An Image is Worth More Than a Thousand Words: Towards Disentanglement in
the Wild
- Title(参考訳): 画像は1000語以上の価値があります:野生の絡み合いに向かって
- Authors: Aviv Gabbay, Niv Cohen, Yedid Hoshen
- Abstract要約: 教師なしの絡み合いは、モデルとデータに誘導的バイアスを伴わずに理論的に不可能であることが示されている。
本稿では,部分的にラベル付けされた要素の集合を分離する手法を提案するとともに,残余因子の相補的集合を分離する手法を提案する。
- 参考スコア(独自算出の注目度): 34.505472771669744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised disentanglement has been shown to be theoretically impossible
without inductive biases on the models and the data. As an alternative
approach, recent methods rely on limited supervision to disentangle the factors
of variation and allow their identifiability. While annotating the true
generative factors is only required for a limited number of observations, we
argue that it is infeasible to enumerate all the factors of variation that
describe a real-world image distribution. To this end, we propose a method for
disentangling a set of factors which are only partially labeled, as well as
separating the complementary set of residual factors that are never explicitly
specified. Our success in this challenging setting, demonstrated on synthetic
benchmarks, gives rise to leveraging off-the-shelf image descriptors to
partially annotate a subset of attributes in real image domains (e.g. of human
faces) with minimal manual effort. Specifically, we use a recent language-image
embedding model (CLIP) to annotate a set of attributes of interest in a
zero-shot manner and demonstrate state-of-the-art disentangled image
manipulation results.
- Abstract(参考訳): 教師なしの絡み合いは、モデルとデータに誘導的バイアスを伴わずに理論的に不可能であることが示されている。
代替アプローチとして、近年の手法は、変化の要因を混乱させ、その識別性を許容する限られた監督に依存している。
真の生成因子の注釈は限られた数の観測にのみ必要とされるが、実世界の画像分布を記述する全ての変動因子を列挙することは不可能である。
そこで本稿では, 部分的にラベル付けされた因子の集合を分離する手法を提案するとともに, 明示的に指定されていない因子の相補的集合を分離する手法を提案する。
合成ベンチマークで実証されたこの挑戦的な設定の成功は、実際の画像領域における属性のサブセットを部分的にアノテートするために、オフザシェルフイメージ記述子を活用するきっかけとなる。
人間の顔について)最小限の手作業で。
具体的には、最近の言語画像埋め込みモデル(clip)を用いて、関心のある属性のセットをゼロショット方式で注釈付けし、最先端の画像操作結果を示す。
関連論文リスト
- Learning to Rank Patches for Unbiased Image Redundancy Reduction [80.93989115541966]
画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T13:12:41Z) - StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation [18.213286385769525]
CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル一貫性の目的をバイパスすることが知られている。
本稿では,ステガノグラフィーを利用した新しいモデルであるStegoGANを紹介した。
我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2024-03-29T12:23:58Z) - What can we learn about a generated image corrupting its latent
representation? [57.1841740328509]
GANのボトルネックにおける潜在表現に基づいて画像品質を予測できるという仮説を考察する。
遅延表現を雑音で破壊し、複数の出力を生成することでこれを実現できる。
論文 参考訳(メタデータ) (2022-10-12T14:40:32Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - Learning to Manipulate Individual Objects in an Image [71.55005356240761]
本稿では,独立性および局所性を有する潜在因子を用いた生成モデルを学習する手法について述べる。
これは、潜伏変数の摂動が、オブジェクトに対応する合成画像の局所領域のみに影響を与えることを意味する。
他の教師なし生成モデルとは異なり、オブジェクトレベルのアノテーションを必要とせず、オブジェクト中心の操作を可能にする。
論文 参考訳(メタデータ) (2020-04-11T21:50:20Z) - Representation Learning Through Latent Canonicalizations [24.136856168381502]
我々は,限られた新しい監督手法を用いて,対象領域に一般化する大規模な注釈付きデータソースの表現を学習しようと試みている。
我々は、明示的な潜在的絡み合いの要求を緩和し、代わりに変動の個々の要因の線形性を奨励する。
提案手法は,多数の教師付きベースラインと比較して,同じ対象領域に一般化するために必要な観測回数を減らすのに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-26T22:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。