論文の概要: CIGMO: Categorical invariant representations in a deep generative
framework
- arxiv url: http://arxiv.org/abs/2205.13758v1
- Date: Fri, 27 May 2022 04:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 12:19:21.563980
- Title: CIGMO: Categorical invariant representations in a deep generative
framework
- Title(参考訳): CIGMO:深い生成フレームワークにおけるカテゴリー的不変表現
- Authors: Haruo Hosoya
- Abstract要約: 我々は、画像データからカテゴリ、形状、およびビューファクターを表現することを学ぶことができる、CIGMOと呼ばれる新しい深層生成モデルを導入する。
実験により,大きな視界変動にもかかわらず,対象形状のカテゴリを効果的に発見できることが示唆された。
- 参考スコア(独自算出の注目度): 4.111899441919164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data of general object images have two most common structures: (1) each
object of a given shape can be rendered in multiple different views, and (2)
shapes of objects can be categorized in such a way that the diversity of shapes
is much larger across categories than within a category. Existing deep
generative models can typically capture either structure, but not both. In this
work, we introduce a novel deep generative model, called CIGMO, that can learn
to represent category, shape, and view factors from image data. The model is
comprised of multiple modules of shape representations that are each
specialized to a particular category and disentangled from view representation,
and can be learned using a group-based weakly supervised learning method. By
empirical investigation, we show that our model can effectively discover
categories of object shapes despite large view variation and quantitatively
supersede various previous methods including the state-of-the-art invariant
clustering algorithm. Further, we show that our approach using
category-specialization can enhance the learned shape representation to better
perform down-stream tasks such as one-shot object identification as well as
shape-view disentanglement.
- Abstract(参考訳): 一般的な物体画像のデータには、(1) 与えられた形状の各物体を複数の異なる視点で描画し、(2) 形状の多様性がカテゴリ内よりもはるかに大きい方法で物体の形状を分類できるという2つの一般的な構造がある。
既存の深層生成モデルは、どちらの構造もキャプチャできるが両方ではない。
本研究では、画像データからカテゴリ、形状、ビューファクターを表現することができるCIGMOと呼ばれる新しい深層生成モデルを提案する。
このモデルは、それぞれ特定のカテゴリに特化してビュー表現から切り離された形状表現の複数のモジュールから構成されており、グループベースの弱教師付き学習法を用いて学習することができる。
実験により,大視野の変動にもかかわらず,物体形状のカテゴリを効果的に発見し,最先端の不変クラスタリングアルゴリズムを含む様々な手法を定量的に重ね合わせることができることを示した。
さらに, カテゴリー特化を用いたアプローチにより, 学習した形状表現が向上し, 単発物体の識別や形状視点の絡み合いなどのダウンストリームタスクが向上することを示す。
関連論文リスト
- Towards Category Unification of 3D Single Object Tracking on Point Clouds [10.64650098374183]
カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
本稿ではまず,共有モデルパラメータを持つ単一ネットワークを用いて,すべてのカテゴリにまたがるオブジェクトを同時に追跡できる統一モデルを提案する。
論文 参考訳(メタデータ) (2024-01-20T10:38:28Z) - Category-level Shape Estimation for Densely Cluttered Objects [94.64287790278887]
そこで本研究では,密に散らばった物体のカテゴリレベルの形状推定手法を提案する。
我々のフレームワークは、多視点視覚情報融合によって、各オブジェクトをクラッタに分割する。
シミュレーション環境と実世界の実験から,本手法が高精度な形状推定を実現することが示された。
論文 参考訳(メタデータ) (2023-02-23T13:00:17Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文 参考訳(メタデータ) (2022-04-21T17:47:35Z) - Multi-Category Mesh Reconstruction From Image Collections [90.24365811344987]
本稿では, 一連の変形可能な3次元モデルとインスタンス固有の変形, ポーズ, テクスチャのセットを組み合わせた, オブジェクトのテクスチャメッシュを推定する手法を提案する。
本手法は,前景マスクと粗いカメラポーズのみを監督として,複数の対象カテゴリの画像を用いて訓練する。
実験により,提案フレームワークは異なる対象カテゴリを区別し,教師なしの方法でカテゴリ固有の形状を学習できることが示唆された。
論文 参考訳(メタデータ) (2021-10-21T16:32:31Z) - PatchNets: Patch-Based Generalizable Deep Implicit 3D Shape
Representations [75.42959184226702]
物体認識訓練のための中級パッチベースサーフェス表現を提案する。
形状や部分点雲の完全化など,新しい表現の応用例をいくつか紹介する。
論文 参考訳(メタデータ) (2020-08-04T15:34:46Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。