論文の概要: Anything-3D: Towards Single-view Anything Reconstruction in the Wild
- arxiv url: http://arxiv.org/abs/2304.10261v1
- Date: Wed, 19 Apr 2023 16:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:22:20.599242
- Title: Anything-3D: Towards Single-view Anything Reconstruction in the Wild
- Title(参考訳): anything-3d: 野生のone-view anythingの再構築に向けて
- Authors: Qiuhong Shen, Xingyi Yang, Xinchao Wang
- Abstract要約: 本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
- 参考スコア(独自算出の注目度): 61.090129285205805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D reconstruction from a single-RGB image in unconstrained real-world
scenarios presents numerous challenges due to the inherent diversity and
complexity of objects and environments. In this paper, we introduce
Anything-3D, a methodical framework that ingeniously combines a series of
visual-language models and the Segment-Anything object segmentation model to
elevate objects to 3D, yielding a reliable and versatile system for single-view
conditioned 3D reconstruction task. Our approach employs a BLIP model to
generate textural descriptions, utilizes the Segment-Anything model for the
effective extraction of objects of interest, and leverages a text-to-image
diffusion model to lift object into a neural radiance field. Demonstrating its
ability to produce accurate and detailed 3D reconstructions for a wide array of
objects, \emph{Anything-3D\footnotemark[2]} shows promise in addressing the
limitations of existing methodologies. Through comprehensive experiments and
evaluations on various datasets, we showcase the merits of our approach,
underscoring its potential to contribute meaningfully to the field of 3D
reconstruction. Demos and code will be available at
\href{https://github.com/Anything-of-anything/Anything-3D}{https://github.com/Anything-of-anything/Anything-3D}.
- Abstract(参考訳): 制約のない実世界のシナリオにおける単一RGB画像からの3D再構成は、オブジェクトや環境の固有の多様性と複雑さのために、多くの課題を提起する。
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを巧みに組み合わせて,オブジェクトを3次元に高める手法であるAnything-3Dを紹介する。
提案手法では,blipモデルを用いてテキスト記述を生成し,関心対象の効果的な抽出にセグメント・エナッシングモデルを使用し,テキストから画像への拡散モデルを用いてオブジェクトをニューラルネットワークの放射場へ持ち上げる。
広範囲のオブジェクトに対して正確で詳細な3D再構成を生成する能力を示す上で, 既存の方法論の限界に対処する上での約束を示す。
様々なデータセットに関する総合的な実験と評価を通じて、我々のアプローチのメリットを実証し、3D再構成の分野に有意義な貢献の可能性を明らかにする。
デモとコードは \href{https://github.com/Anything-of-anything/Anything-3D}{https://github.com/Anything-of-anything/Anything-3D} で公開される。
関連論文リスト
- Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - Iterative Superquadric Recomposition of 3D Objects from Multiple Views [77.53142165205283]
2次元ビューから直接3次元スーパークワッドリックを意味部品として用いたオブジェクトを再構成するフレームワークISCOを提案する。
我々のフレームワークは、再構成エラーが高い場合に、反復的に新しいスーパークワッドリックを追加します。
これは、野生の画像からでも、より正確な3D再構成を提供する。
論文 参考訳(メタデータ) (2023-09-05T10:21:37Z) - Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文 参考訳(メタデータ) (2022-12-13T18:57:33Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。