論文の概要: LaTeRF: Label and Text Driven Object Radiance Fields
- arxiv url: http://arxiv.org/abs/2207.01583v1
- Date: Mon, 4 Jul 2022 17:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:08:40.256954
- Title: LaTeRF: Label and Text Driven Object Radiance Fields
- Title(参考訳): LaTeRF:ラベルとテキスト駆動型オブジェクト放射場
- Authors: Ashkan Mirzaei, Yash Kant, Jonathan Kelly, and Igor Gilitschenski
- Abstract要約: シーン全体と既知のカメラポーズの2次元画像から興味の対象を抽出するLaTeRFを提案する。
シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を3Dポイントごとに追加のオブジェクト性確率で拡張する。
合成データと実データの両方で高忠実度オブジェクト抽出を実証する。
- 参考スコア(独自算出の注目度): 8.191404990730236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining 3D object representations is important for creating photo-realistic
simulators and collecting assets for AR/VR applications. Neural fields have
shown their effectiveness in learning a continuous volumetric representation of
a scene from 2D images, but acquiring object representations from these models
with weak supervision remains an open challenge. In this paper we introduce
LaTeRF, a method for extracting an object of interest from a scene given 2D
images of the entire scene and known camera poses, a natural language
description of the object, and a small number of point-labels of object and
non-object points in the input images. To faithfully extract the object from
the scene, LaTeRF extends the NeRF formulation with an additional `objectness'
probability at each 3D point. Additionally, we leverage the rich latent space
of a pre-trained CLIP model combined with our differentiable object renderer,
to inpaint the occluded parts of the object. We demonstrate high-fidelity
object extraction on both synthetic and real datasets and justify our design
choices through an extensive ablation study.
- Abstract(参考訳): 3Dオブジェクト表現の取得は、フォトリアリスティックシミュレータの作成とAR/VRアプリケーションのアセット収集において重要である。
ニューラルネットワークは2次元画像からシーンの連続的な体積表現を学習する効果を示してきたが、これらのモデルからオブジェクト表現を取得することは依然としてオープンな課題である。
本稿では、シーン全体と既知のカメラポーズの2d画像、オブジェクトの自然言語記述、入力画像中のオブジェクトと非オブジェクトポイントの少数の点ラベルを与えられたシーンから興味のあるオブジェクトを抽出する手法である laterf を紹介する。
シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を各3Dポイントで追加の「対象性」確率で拡張する。
さらに、事前訓練されたCLIPモデルのリッチな潜伏空間と微分可能なオブジェクトレンダラーを組み合わせることで、オブジェクトの隠蔽部分を塗り付ける。
合成データと実データの両方で高忠実度オブジェクト抽出を行い,広範なアブレーション研究を通じて設計選択を正当化する。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Unsupervised Discovery of Object-Centric Neural Fields [21.223170092979498]
1つの画像から3次元オブジェクト中心のシーン表現を推定する。
我々は、対象中心神経場(uOCF)の教師なし発見を提案する。
論文 参考訳(メタデータ) (2024-02-12T02:16:59Z) - Slot-guided Volumetric Object Radiance Fields [13.996432950674045]
本稿では,3次元オブジェクト中心表現学習のための新しいフレームワークを提案する。
本手法では,複雑なシーンを,教師なしの方法で単一の画像から個々のオブジェクトに分解する。
論文 参考訳(メタデータ) (2024-01-04T12:52:48Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category
Modelling [11.432178728985956]
我々はNeural Radiance Fields (NeRF) を用いて、入力画像のコレクションから高品質な3Dオブジェクトカテゴリモデルを学習する。
本手法は,測光とカジュアルキャプチャによる画像のみを用いて,高精度な3dオブジェクトカテゴリモデルを学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T01:38:54Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - ROOTS: Object-Centric Representation and Rendering of 3D Scenes [28.24758046060324]
人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。
本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
論文 参考訳(メタデータ) (2020-06-11T00:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。