論文の概要: Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations
- arxiv url: http://arxiv.org/abs/2506.04789v1
- Date: Thu, 05 Jun 2025 09:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.625512
- Title: Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations
- Title(参考訳): Object-X: マルチモーダルな3次元オブジェクト表現を再構築する学習
- Authors: Gaia Di Lorenzo, Federico Tombari, Marc Pollefeys, Daniel Barath,
- Abstract要約: Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
- 参考スコア(独自算出の注目度): 112.29763628638112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning effective multi-modal 3D representations of objects is essential for numerous applications, such as augmented reality and robotics. Existing methods often rely on task-specific embeddings that are tailored either for semantic understanding or geometric reconstruction. As a result, these embeddings typically cannot be decoded into explicit geometry and simultaneously reused across tasks. In this paper, we propose Object-X, a versatile multi-modal object representation framework capable of encoding rich object embeddings (e.g. images, point cloud, text) and decoding them back into detailed geometric and visual reconstructions. Object-X operates by geometrically grounding the captured modalities in a 3D voxel grid and learning an unstructured embedding fusing the information from the voxels with the object attributes. The learned embedding enables 3D Gaussian Splatting-based object reconstruction, while also supporting a range of downstream tasks, including scene alignment, single-image 3D object reconstruction, and localization. Evaluations on two challenging real-world datasets demonstrate that Object-X produces high-fidelity novel-view synthesis comparable to standard 3D Gaussian Splatting, while significantly improving geometric accuracy. Moreover, Object-X achieves competitive performance with specialized methods in scene alignment and localization. Critically, our object-centric descriptors require 3-4 orders of magnitude less storage compared to traditional image- or point cloud-based approaches, establishing Object-X as a scalable and highly practical solution for multi-modal 3D scene representation.
- Abstract(参考訳): オブジェクトの効果的なマルチモーダルな3D表現を学習することは、拡張現実やロボット工学といった多くのアプリケーションにとって不可欠である。
既存の手法は、意味的理解や幾何学的再構築に適したタスク固有の埋め込みに依存していることが多い。
結果として、これらの埋め込みは通常、明示的な幾何学にデコードすることができず、タスク間で同時に再利用される。
本稿では,リッチなオブジェクト埋め込み(例えば画像,点雲,テキスト)を符号化し,それらを詳細な幾何学的・視覚的再構成に復号することができる多目的多モードオブジェクト表現フレームワークであるObject-Xを提案する。
Object-Xは、取得したモダリティを3Dボクセルグリッドに幾何学的に接地し、ボクセルからの情報をオブジェクト属性と融合させる非構造埋め込みを学習することによって動作する。
学習した埋め込みにより、3Dガウススプラッティングに基づくオブジェクト再構成が可能となり、シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなどの下流タスクもサポートする。
2つの挑戦的な実世界のデータセットによる評価は、Object-Xが標準的な3Dガウススプラッティングに匹敵する高忠実なノベルビュー合成を実現し、幾何学的精度を大幅に向上したことを示している。
さらに、Object-Xはシーンアライメントとローカライゼーションの特殊な手法と競合する性能を実現している。
重要なことは、オブジェクト中心のディスクリプタは従来のイメージベースやポイントクラウドベースのアプローチに比べて3~4桁のストレージを必要とするため、マルチモーダルな3Dシーン表現のためのスケーラブルで実用的なソリューションとしてObject-Xを確立します。
関連論文リスト
- HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Gaussian Object Carver: Object-Compositional Gaussian Splatting with surfaces completion [16.379647695019308]
3Dシーンの再構築はコンピュータビジョンの基本的な問題である。
本稿では,Gaussian Object Carver (GOC)を紹介した。
GOCは、高品質で柔軟な再構築を実現するために、モノクラー幾何学の先行と多視点幾何学の正規化に富んだ3Dガウススプラッティング(GS)を利用する。
論文 参考訳(メタデータ) (2024-12-03T01:34:39Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。