論文の概要: pix2gestalt: Amodal Segmentation by Synthesizing Wholes
- arxiv url: http://arxiv.org/abs/2401.14398v1
- Date: Thu, 25 Jan 2024 18:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:32:36.733886
- Title: pix2gestalt: Amodal Segmentation by Synthesizing Wholes
- Title(参考訳): pix2gestalt: wholes合成によるアモダルセグメンテーション
- Authors: Ege Ozguroglu, Ruoshi Liu, D\'idac Sur\'is, Dian Chen, Achal Dave,
Pavel Tokmakov, Carl Vondrick
- Abstract要約: pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
- 参考スコア(独自算出の注目度): 34.45464291259217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce pix2gestalt, a framework for zero-shot amodal segmentation,
which learns to estimate the shape and appearance of whole objects that are
only partially visible behind occlusions. By capitalizing on large-scale
diffusion models and transferring their representations to this task, we learn
a conditional diffusion model for reconstructing whole objects in challenging
zero-shot cases, including examples that break natural and physical priors,
such as art. As training data, we use a synthetically curated dataset
containing occluded objects paired with their whole counterparts. Experiments
show that our approach outperforms supervised baselines on established
benchmarks. Our model can furthermore be used to significantly improve the
performance of existing object recognition and 3D reconstruction methods in the
presence of occlusions.
- Abstract(参考訳): ゼロショットアモーダルセグメンテーションのためのフレームワークであるpix2gestaltを導入し、オクルージョンの背後で部分的にしか見えないオブジェクト全体の形状と外観を推定することを学ぶ。
大規模拡散モデルに乗じてその表現をこのタスクに移すことで、自然や物理的に先行する美術品などを含むゼロショットの難題において、オブジェクト全体を再構成するための条件付き拡散モデルを学ぶ。
トレーニングデータとして、排他的オブジェクトと全オブジェクトをペアにした合成キュレートデータセットを使用する。
実験により,本手法が確立したベンチマークのベースラインよりも優れていることが示された。
さらに,既存の物体認識および3次元再構成手法の性能を,閉塞の有無で大幅に向上させることができる。
関連論文リスト
- DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - Generalizing Single-View 3D Shape Retrieval to Occlusions and Unseen
Objects [32.32128461720876]
シングルビュー3D形状検索は、利用可能な3Dデータの増大に伴ってますます重要になる課題である。
我々は,3つの異なる軸に沿って一視点の3次元形状検索を体系的に評価し,物体の閉塞や切り離しの存在,見えない3次元形状データへの一般化,入力画像における見えない物体への一般化について検討した。
論文 参考訳(メタデータ) (2023-12-31T05:39:38Z) - A Fusion of Variational Distribution Priors and Saliency Map Replay for
Continual 3D Reconstruction [1.3812010983144802]
単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。
このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。
本稿では,従来のクラスを新しいクラスで学習した後でも合理的に再構築できる変分優先を用いたモデルの設計を目標とする,連続的な学習に基づく3D再構成手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:48:55Z) - Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。
我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。
これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文 参考訳(メタデータ) (2021-11-24T16:10:46Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。