論文の概要: Unsupervised Layered Image Decomposition into Object Prototypes
- arxiv url: http://arxiv.org/abs/2104.14575v1
- Date: Thu, 29 Apr 2021 18:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:44:27.147763
- Title: Unsupervised Layered Image Decomposition into Object Prototypes
- Title(参考訳): 教師なし階層画像のオブジェクトプロトタイプへの分解
- Authors: Tom Monnier, Elliot Vincent, Jean Ponce, Mathieu Aubry
- Abstract要約: 自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
- 参考スコア(独自算出の注目度): 39.20333694585477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an unsupervised learning framework for decomposing images into
layers of automatically discovered object models. Contrary to recent approaches
that model image layers with autoencoder networks, we represent them as
explicit transformations of a small set of prototypical images. Our model has
three main components: (i) a set of object prototypes in the form of learnable
images with a transparency channel, which we refer to as sprites; (ii)
differentiable parametric functions predicting occlusions and transformation
parameters necessary to instantiate the sprites in a given image; (iii) a
layered image formation model with occlusion for compositing these instances
into complete images including background. By jointly learning the sprites and
occlusion/transformation predictors to reconstruct images, our approach not
only yields accurate layered image decompositions, but also identifies object
categories and instance parameters. We first validate our approach by providing
results on par with the state of the art on standard multi-object synthetic
benchmarks (Tetrominoes, Multi-dSprites, CLEVR6). We then demonstrate the
applicability of our model to real images in tasks that include clustering
(SVHN, GTSRB), cosegmentation (Weizmann Horse) and object discovery from
unfiltered social network images. To the best of our knowledge, our approach is
the first layered image decomposition algorithm that learns an explicit and
shared concept of object type, and is robust enough to be applied to real
images.
- Abstract(参考訳): 自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
オートエンコーダネットワークで画像層をモデル化する最近のアプローチとは対照的に、我々はそれらを少数の原型画像の明示的な変換として表現する。
モデルには3つの主要要素がある: (i) 学習可能な画像にスプライト(sprite)と呼ばれる透明なチャネルを組み込んだオブジェクトプロトタイプセット、 (ii) 任意の画像中のスプライトをインスタンス化するのに必要なオクルージョンと変換パラメータを予測可能なパラメトリック関数、 (iii) これらのインスタンスを背景を含む完全な画像に合成するための層画像形成モデル。
スプライトとオクルージョン/トランスフォーメーション予測器を共同で学習することで,画像の正確な階層化を実現するだけでなく,オブジェクトのカテゴリやインスタンスパラメータも識別する。
まず、標準的なマルチオブジェクト合成ベンチマーク(Tetrominoes、Multi-dSprites、CLEVR6)上で、技術の現状と同等の結果を提供することで、我々のアプローチを検証する。
次に、クラスタリング(SVHN, GTSRB)、コセグメンテーション(Weizmann Horse)、未フィルタリングのソーシャルネットワーク画像からのオブジェクト発見などのタスクにおいて、モデルが実際の画像に適用可能であることを示す。
我々の知る限りでは、我々のアプローチは、オブジェクトタイプの明示的で共有された概念を学習する最初の階層化画像分解アルゴリズムであり、実際の画像に適用できるほど堅牢である。
関連論文リスト
- Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文 参考訳(メタデータ) (2022-04-21T17:47:35Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。