Fugu-MT 論文翻訳(概要): pix2gestalt: Amodal Segmentation by Synthesizing Wholes

論文の概要: pix2gestalt: Amodal Segmentation by Synthesizing Wholes

arxiv url: http://arxiv.org/abs/2401.14398v1
Date: Thu, 25 Jan 2024 18:57:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 13:32:36.733886
Title: pix2gestalt: Amodal Segmentation by Synthesizing Wholes
Title（参考訳）: pix2gestalt: wholes合成によるアモダルセグメンテーション
Authors: Ege Ozguroglu, Ruoshi Liu, D\'idac Sur\'is, Dian Chen, Achal Dave, Pavel Tokmakov, Carl Vondrick
Abstract要約: pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
参考スコア（独自算出の注目度）: 34.45464291259217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce pix2gestalt, a framework for zero-shot amodal segmentation, which learns to estimate the shape and appearance of whole objects that are only partially visible behind occlusions. By capitalizing on large-scale diffusion models and transferring their representations to this task, we learn a conditional diffusion model for reconstructing whole objects in challenging zero-shot cases, including examples that break natural and physical priors, such as art. As training data, we use a synthetically curated dataset containing occluded objects paired with their whole counterparts. Experiments show that our approach outperforms supervised baselines on established benchmarks. Our model can furthermore be used to significantly improve the performance of existing object recognition and 3D reconstruction methods in the presence of occlusions.
Abstract（参考訳）: ゼロショットアモーダルセグメンテーションのためのフレームワークであるpix2gestaltを導入し、オクルージョンの背後で部分的にしか見えないオブジェクト全体の形状と外観を推定することを学ぶ。大規模拡散モデルに乗じてその表現をこのタスクに移すことで、自然や物理的に先行する美術品などを含むゼロショットの難題において、オブジェクト全体を再構成するための条件付き拡散モデルを学ぶ。トレーニングデータとして、排他的オブジェクトと全オブジェクトをペアにした合成キュレートデータセットを使用する。実験により,本手法が確立したベンチマークのベースラインよりも優れていることが示された。さらに,既存の物体認識および3次元再構成手法の性能を,閉塞の有無で大幅に向上させることができる。

関連論文リスト

Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文参考訳（メタデータ） (2025-04-04T05:08:04Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文参考訳（メタデータ） (2024-05-09T14:17:26Z)
Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild [22.82439286651921]
本研究では,3次元形状復元に特化して設計された分割と再構成を統合した統合回帰モデルを提案する。また、オブジェクト、オクローダ、バックグラウンドの幅広いバリエーションをシミュレートするスケーラブルなデータ合成パイプラインも導入しています。我々の合成データのトレーニングにより,提案モデルは実世界の画像に対して最先端のゼロショット結果が得られる。
論文参考訳（メタデータ） (2024-03-21T16:40:10Z)
A Fusion of Variational Distribution Priors and Saliency Map Replay for Continual 3D Reconstruction [1.2289361708127877]
単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。本稿では,従来のクラスを新しいクラスで学習した後でも合理的に再構築できる変分優先を用いたモデルの設計を目標とする,連続的な学習に基づく3D再構成手法を提案する。
論文参考訳（メタデータ） (2023-08-17T06:48:55Z)
Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文参考訳（メタデータ） (2021-11-24T16:10:46Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)
Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文参考訳（メタデータ） (2021-02-11T18:57:10Z)
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文参考訳（メタデータ） (2021-02-04T14:26:42Z)
Monocular Human Pose and Shape Reconstruction using Part Differentiable Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。本稿では,ボディセグメンテーションを重要な監視対象として紹介する。部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文参考訳（メタデータ） (2020-03-24T14:25:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。