論文の概要: LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2504.18424v1
- Date: Fri, 25 Apr 2025 15:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.817441
- Title: LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning
- Title(参考訳): LaRI:シングルビュー3次元幾何推論のための層状光干渉
- Authors: Rui Li, Biao Zhang, Zhenyu Li, Federico Tombari, Peter Wonka,
- Abstract要約: 層状光線交差(LaRI)は、1つの画像から未知の幾何学的推論を行う新しい方法である。
コンパクトで階層的な表現から恩恵を受けることで、LaRIは完全で効率的でビュー整合な幾何学的推論を可能にする。
3Dオブジェクトやシーンを含む、合成および実世界のデータのための完全なトレーニングデータ生成パイプラインを構築します。
- 参考スコア(独自算出の注目度): 75.9814389360821
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present layered ray intersections (LaRI), a new method for unseen geometry reasoning from a single image. Unlike conventional depth estimation that is limited to the visible surface, LaRI models multiple surfaces intersected by the camera rays using layered point maps. Benefiting from the compact and layered representation, LaRI enables complete, efficient, and view-aligned geometric reasoning to unify object- and scene-level tasks. We further propose to predict the ray stopping index, which identifies valid intersecting pixels and layers from LaRI's output. We build a complete training data generation pipeline for synthetic and real-world data, including 3D objects and scenes, with necessary data cleaning steps and coordination between rendering engines. As a generic method, LaRI's performance is validated in two scenarios: It yields comparable object-level results to the recent large generative model using 4% of its training data and 17% of its parameters. Meanwhile, it achieves scene-level occluded geometry reasoning in only one feed-forward.
- Abstract(参考訳): 1枚の画像から新たな幾何学的手法である層状線交叉(LaRI)を提案する。
可視面に限られる従来の深度推定とは異なり、LaRIは層状点マップを用いてカメラ線で交差する複数の面をモデル化する。
コンパクトで階層的な表現から恩恵を受けるため、LaRIはオブジェクトとシーンレベルのタスクを統一するために、完全に、効率的で、ビューに整合した幾何学的推論を可能にする。
また、LaRIの出力から有効な交差画素と層を識別するレイ停止指数の予測についても提案する。
我々は、3Dオブジェクトやシーンを含む合成および実世界のデータのための完全なトレーニングデータ生成パイプラインを構築し、必要なデータクリーニングステップとレンダリングエンジン間の調整を行います。
一般的な方法として、LaRIのパフォーマンスは2つのシナリオで検証されている。 トレーニングデータの4%とパラメータの17%を使用して、最近の大規模な生成モデルに同等のオブジェクトレベルの結果をもたらす。
一方、1つのフィードフォワードでのみシーンレベルの隠蔽幾何推論を実現する。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - X-Ray: A Sequential 3D Representation For Generation [54.160173837582796]
我々は、X線スキャンにインスパイアされた新しい3Dシーケンシャル表現であるX線を紹介する。
X線は3Dオブジェクトを異なる層で一連の表面フレームに変換するため、画像から3Dモデルを生成するのに適している。
論文 参考訳(メタデータ) (2024-04-22T16:40:11Z) - RayDF: Neural Ray-surface Distance Fields with Multi-view Consistency [10.55497978011315]
我々は、レイベースニューラルネットワークとして3次元形状を定式化するためのRayDFと呼ばれる新しいフレームワークを提案する。
本手法は,800×800の深度画像を描画する座標法よりも1000倍高速な高速化を実現する。
論文 参考訳(メタデータ) (2023-10-30T15:22:50Z) - Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation [26.726658200149544]
スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
論文 参考訳(メタデータ) (2023-03-15T07:05:07Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics [7.507853813361308]
本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
本稿では,視覚的意味論と3次元幾何学的情報を巧みに融合した,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることが確認された。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。