論文の概要: ROODI: Reconstructing Occluded Objects with Denoising Inpainters
- arxiv url: http://arxiv.org/abs/2503.10256v1
- Date: Thu, 13 Mar 2025 11:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:50.624729
- Title: ROODI: Reconstructing Occluded Objects with Denoising Inpainters
- Title(参考訳): ROODI: 混入したオブジェクトをデノナイズしたインペイントで再構築する
- Authors: Yeonjin Chang, Erqun Dong, Seunghyeon Seo, Nojun Kwak, Kwang Moo Yi,
- Abstract要約: 本稿では,2つの基本原理に基づく新しいオブジェクト抽出手法を提案する。
刈り取るために,K-アネレスト近傍を用いた原始体の局所構造を解析し,関連するもののみを保持する。
塗布には,全シーンの3次元表現を生かして,既製の拡散型塗布と排他的推論を併用する。
本手法は, 複雑なシーンからのオブジェクト抽出において, 最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 34.37743884589211
- License:
- Abstract: While the quality of novel-view images has improved dramatically with 3D Gaussian Splatting, extracting specific objects from scenes remains challenging. Isolating individual 3D Gaussian primitives for each object and handling occlusions in scenes remain far from being solved. We propose a novel object extraction method based on two key principles: (1) being object-centric by pruning irrelevant primitives; and (2) leveraging generative inpainting to compensate for missing observations caused by occlusions. For pruning, we analyze the local structure of primitives using K-nearest neighbors, and retain only relevant ones. For inpainting, we employ an off-the-shelf diffusion-based inpainter combined with occlusion reasoning, utilizing the 3D representation of the entire scene. Our findings highlight the crucial synergy between pruning and inpainting, both of which significantly enhance extraction performance. We evaluate our method on a standard real-world dataset and introduce a synthetic dataset for quantitative analysis. Our approach outperforms the state-of-the-art, demonstrating its effectiveness in object extraction from complex scenes.
- Abstract(参考訳): 3Dガウシアン・スプラッティングにより、新しい視点画像の品質は劇的に向上したが、シーンから特定の物体を抽出することは依然として困難である。
個々のオブジェクトに対して個別の3Dガウスプリミティブを分離し、シーンにおけるオクルージョンを扱うことは、まだ解決されていない。
本研究では,(1)無関係なプリミティブを刈り取ることによってオブジェクト中心であること,(2)隠蔽による観察不足を補うために生成的インペインティングを活用すること,の2つの原則に基づく新しいオブジェクト抽出手法を提案する。
刈り取るために,K-アネレスト近傍を用いた原始体の局所構造を解析し,関連するもののみを保持する。
塗布には,全シーンの3次元表現を生かして,既製の拡散型塗布と排他的推論を併用する。
以上の結果から,抽出性能が著しく向上するプルーニングとインペインティングの相乗効果が示唆された。
提案手法を実世界の標準データセット上で評価し,定量的解析のための合成データセットを提案する。
本手法は, 複雑なシーンからのオブジェクト抽出において, 最先端の手法よりも優れていることを示す。
関連論文リスト
- Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding [15.834419910916933]
固有基底から一貫した正規成分を抽出する新しい位置符号化手法PerturbPEを提案する。
実験結果では,Human3.6Mデータセットで最大12%のパフォーマンス向上が観測された。
我々の新しいアプローチは、2つのエッジが欠落しているシナリオのパフォーマンスを大幅に向上させ、最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2024-05-27T17:48:54Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly [18.655229356566785]
スパースRGB画像から構造化された3D抽象化を学習するための、微分可能なレンダリングフレームワークを提案する。
異なるボリュームレンダリングを活用することで,本手法は3次元監視を必要としない。
本手法は,スパースビューからの3次元プリミティブ抽象に対する最先端の代替手段よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-01T03:10:36Z) - Robust Shape Fitting for 3D Scene Abstraction [33.84212609361491]
特に,キュービドやシリンダーなどのボリュームプリミティブを用いて人工環境を記述することができる。
プリミティブフィッティングのためのロバストな推定器を提案し、キュービドを用いて複雑な現実世界環境を有意に抽象化する。
NYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。
論文 参考訳(メタデータ) (2024-03-15T16:37:43Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object
Detection [0.0]
本稿では,不明瞭な画像を観察する際の人間の動作を模倣する混合スケール三重項ネットワークbf ZoomNetを提案する。
具体的には、ZoomNetは、ズーム戦略を用いて、設計されたスケール統合ユニットと階層的な混合スケールユニットによって、差別的な混合スケール意味学を学ぶ。
提案したタスクフレンドリなモデルは、4つの公開データセット上の既存の23の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-05T09:13:52Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。