論文の概要: InSeGAN: A Generative Approach to Segmenting Identical Instances in
Depth Images
- arxiv url: http://arxiv.org/abs/2108.13865v1
- Date: Tue, 31 Aug 2021 14:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:40:00.758869
- Title: InSeGAN: A Generative Approach to Segmenting Identical Instances in
Depth Images
- Title(参考訳): InSeGAN: 深部画像におけるIdentical Instanceのセグメンテーションのための生成的アプローチ
- Authors: Anoop Cherian and Goncalo Dias Pais and Siddarth Jain and Tim K. Marks
and Alan Sullivan
- Abstract要約: InSeGAN(InSeGAN)は,非教師付き3次元生成対向ネットワーク(GAN)であり,奥行き画像中の剛体物体の同一事例を分割する。
InSeGANは最先端のパフォーマンスを実現し、多くの場合、多くのマージンで先行手法を上回っている。
- 参考スコア(独自算出の注目度): 30.30246758818309
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present InSeGAN, an unsupervised 3D generative adversarial
network (GAN) for segmenting (nearly) identical instances of rigid objects in
depth images. Using an analysis-by-synthesis approach, we design a novel GAN
architecture to synthesize a multiple-instance depth image with independent
control over each instance. InSeGAN takes in a set of code vectors (e.g.,
random noise vectors), each encoding the 3D pose of an object that is
represented by a learned implicit object template. The generator has two
distinct modules. The first module, the instance feature generator, uses each
encoded pose to transform the implicit template into a feature map
representation of each object instance. The second module, the depth image
renderer, aggregates all of the single-instance feature maps output by the
first module and generates a multiple-instance depth image. A discriminator
distinguishes the generated multiple-instance depth images from the
distribution of true depth images. To use our model for instance segmentation,
we propose an instance pose encoder that learns to take in a generated depth
image and reproduce the pose code vectors for all of the object instances. To
evaluate our approach, we introduce a new synthetic dataset, "Insta-10",
consisting of 100,000 depth images, each with 5 instances of an object from one
of 10 classes. Our experiments on Insta-10, as well as on real-world noisy
depth images, show that InSeGAN achieves state-of-the-art performance, often
outperforming prior methods by large margins.
- Abstract(参考訳): 本稿では,奥行き画像における剛体物体の同一インスタンスをセグメント化するための教師なし3次元生成逆ネットワーク (gan) であるinseganを提案する。
解析・合成手法を用いて,各インスタンスを独立制御した複数インスタンス深度画像の合成を行う新しいGANアーキテクチャを設計する。
InSeGANは一連のコードベクトル(例えばランダムノイズベクトル)を持ち、それぞれが学習された暗黙のオブジェクトテンプレートで表されるオブジェクトの3Dポーズを符号化する。
ジェネレータには2つの異なるモジュールがある。
最初のモジュールであるインスタンス機能ジェネレータは、各エンコードされたポーズを使用して、暗黙のテンプレートを各オブジェクトインスタンスのフィーチャーマップ表現に変換する。
第2のモジュールである深度画像レンダラは、第1のモジュールが出力するシングルインテンス特徴マップをすべて集約し、マルチインテンス深度画像を生成する。
判別器は、生成した多重インスタンス深度画像と真深度画像の分布とを区別する。
このモデルをセグメンテーションに利用するために、生成された深度画像を取り込んで、すべてのオブジェクトインスタンスに対してポーズコードベクトルを再現することを学ぶインスタンスポーズエンコーダを提案する。
このアプローチを評価するために、10万の深さ画像からなる新しい合成データセット「insta-10」を導入し、それぞれが10クラスのうちの1つのオブジェクトの5つのインスタンスからなる。
Insta-10および実世界の雑音深度画像を用いた実験により、InSeGANは最先端の性能を達成し、多くの場合、先行手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Co-Salient Object Detection with Semantic-Level Consensus Extraction and
Dispersion [27.120768849942145]
共塩物検出は、各画像の一般的な塩物を明らかにすることを目的としている。
意味レベルのコンセンサスを抽出する階層型トランスフォーマーモジュールを提案する。
Transformerベースの分散モジュールは、異なるシーンにおける共存オブジェクトの変動を考慮している。
論文 参考訳(メタデータ) (2023-09-14T14:39:07Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文 参考訳(メタデータ) (2022-04-21T17:47:35Z) - Unknown Object Segmentation from Stereo Images [18.344801596121997]
対象のセマンティック情報や幾何学的情報を予め必要としない,新しいオブジェクトインスタンス分割手法を提案する。
ステレオセンサの汎用性に着目し,入力画像のペアからオブジェクトインスタンスへ直接マップするトランスフォーマティブベースのアーキテクチャを採用している。
いくつかの異なるアプリケーションドメインでの実験では、Instance Stereo Transformer(INSTR)アルゴリズムが、深度マップに基づく現在の最新手法を上回ることを示しています。
論文 参考訳(メタデータ) (2021-03-11T17:03:44Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z) - SDOD:Real-time Segmenting and Detecting 3D Object by Depth [5.97602869680438]
本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
論文 参考訳(メタデータ) (2020-01-26T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。