論文の概要: PT43D: A Probabilistic Transformer for Generating 3D Shapes from Single Highly-Ambiguous RGB Images
- arxiv url: http://arxiv.org/abs/2405.11914v3
- Date: Mon, 04 Nov 2024 10:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:45.488989
- Title: PT43D: A Probabilistic Transformer for Generating 3D Shapes from Single Highly-Ambiguous RGB Images
- Title(参考訳): PT43D:高輝度RGB画像から3次元形状を生成する確率変換器
- Authors: Yiheng Xiong, Angela Dai,
- Abstract要約: 本稿では,1枚のRGB画像から3次元形状を生成するトランスフォーマーを用いた自己回帰モデルを提案する。
フィールド・オブ・ビュー・トランケーションのような現実的なシナリオを扱うために、シミュレーション画像と形状のトレーニングペアを作成します。
次に、入力画像から最も関連性の高い領域を効果的に識別し、形状生成を行う。
- 参考スコア(独自算出の注目度): 26.900974153235456
- License:
- Abstract: Generating 3D shapes from single RGB images is essential in various applications such as robotics. Current approaches typically target images containing clear and complete visual descriptions of the object, without considering common realistic cases where observations of objects that are largely occluded or truncated. We thus propose a transformer-based autoregressive model to generate the probabilistic distribution of 3D shapes conditioned on an RGB image containing potentially highly ambiguous observations of the object. To handle realistic scenarios such as occlusion or field-of-view truncation, we create simulated image-to-shape training pairs that enable improved fine-tuning for real-world scenarios. We then adopt cross-attention to effectively identify the most relevant region of interest from the input image for shape generation. This enables inference of sampled shapes with reasonable diversity and strong alignment with the input image. We train and test our model on our synthetic data then fine-tune and test it on real-world data. Experiments demonstrate that our model outperforms state of the art in both scenarios.
- Abstract(参考訳): ロボット工学などの様々な応用において,単一のRGB画像から3次元形状を生成することが不可欠である。
現行のアプローチでは、物体の鮮明で完全な視覚的記述を含むイメージをターゲットとしており、物体の観察がおおむね無視される、あるいは取り消される、一般的な現実的なケースを考慮しない。
そこで本稿では,RGB画像上の3次元形状の確率分布を生成するトランスフォーマーを用いた自己回帰モデルを提案する。
閉塞や視野の切り離しといった現実的なシナリオに対処するために、実世界のシナリオの微調整を改善するために、シミュレートされた画像と形状のトレーニングペアを作成します。
次に、入力画像から最も関連性の高い領域を効果的に識別し、形状生成を行う。
これにより、適切な多様性と入力画像との強い整合性を持つサンプル形状の推測が可能となる。
合成データに基づいてモデルをトレーニングし、テストし、微調整し、実世界のデータでテストします。
実験により、どちらのシナリオにおいても、我々のモデルは最先端よりも優れています。
関連論文リスト
- Object-Centric Domain Randomization for 3D Shape Reconstruction in the Wild [22.82439286651921]
ワンビュー3次元形状復元における最大の課題の1つは、現実世界の環境から得られる3次元形状2次元画像データの不足である。
ドメインランダム化による顕著な成果にインスパイアされたObjectDRは、オブジェクトの外観や背景の視覚的変化をランダムにシミュレーションすることで、そのようなペア化されたデータを合成する。
論文 参考訳(メタデータ) (2024-03-21T16:40:10Z) - ConRad: Image Constrained Radiance Fields for 3D Generation from a
Single Image [15.997195076224312]
単一のRGB画像から3Dオブジェクトを再構成する新しい手法を提案する。
提案手法は,最新の画像生成モデルを用いて隠れた3次元構造を推定する。
我々の3D再構成は入力に忠実なままであり、より一貫性のある3Dモデルを生成することを示す。
論文 参考訳(メタデータ) (2023-11-09T09:17:10Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z) - Sim2Air - Synthetic aerial dataset for UAV monitoring [2.1638817206926855]
テクスチャランダム化を適用し,形状に基づくオブジェクト表現のアクセント化を提案する。
すべてのパラメータでフォトリアリズムを持つ多様なデータセットは、3DモデリングソフトウェアであるBlenderで作成される。
論文 参考訳(メタデータ) (2021-10-11T10:36:33Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。