論文の概要: SplatR : Experience Goal Visual Rearrangement with 3D Gaussian Splatting and Dense Feature Matching
- arxiv url: http://arxiv.org/abs/2411.14322v1
- Date: Thu, 21 Nov 2024 17:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:14.088532
- Title: SplatR : Experience Goal Visual Rearrangement with 3D Gaussian Splatting and Dense Feature Matching
- Title(参考訳): SplatR : 3次元ガウススプラッティングとDense Feature Matchingを用いた体験目標視覚再構成
- Authors: Arjun P S, Andrew Melnik, Gora Chand Nandi,
- Abstract要約: 本稿では,3次元ガウシアン・スプラッティングを3次元シーン表現として活用した新しいフレームワークを提案する。
提案手法により,エージェントは,アレンジメントタスクの現在と目標設定を一貫した視点で把握することができる。
我々は,AI2-THOR再構成チャレンジベンチマークに対するアプローチを検証するとともに,現在の技術手法に対する改善を実証する。
- 参考スコア(独自算出の注目度): 0.979851640406258
- License:
- Abstract: Experience Goal Visual Rearrangement task stands as a foundational challenge within Embodied AI, requiring an agent to construct a robust world model that accurately captures the goal state. The agent uses this world model to restore a shuffled scene to its original configuration, making an accurate representation of the world essential for successfully completing the task. In this work, we present a novel framework that leverages on 3D Gaussian Splatting as a 3D scene representation for experience goal visual rearrangement task. Recent advances in volumetric scene representation like 3D Gaussian Splatting, offer fast rendering of high quality and photo-realistic novel views. Our approach enables the agent to have consistent views of the current and the goal setting of the rearrangement task, which enables the agent to directly compare the goal state and the shuffled state of the world in image space. To compare these views, we propose to use a dense feature matching method with visual features extracted from a foundation model, leveraging its advantages of a more universal feature representation, which facilitates robustness, and generalization. We validate our approach on the AI2-THOR rearrangement challenge benchmark and demonstrate improvements over the current state of the art methods
- Abstract(参考訳): 体験 Goal Visual Rearrangementタスクは、エージェントが目標状態を正確にキャプチャする堅牢な世界モデルを構築する必要がある、Embodied AIの基本的な課題である。
エージェントは、この世界モデルを使用してシャッフルシーンを元の構成に復元し、タスクを完了させるために必要な正確な世界を表現する。
本研究では,3次元ガウシアン・スプラッティングを3次元シーン表現として活用し,視覚的アレンジメントを体験するための新しいフレームワークを提案する。
近年の3Dガウススプラッティングのようなボリュームシーン表現の進歩は、高品質で写真リアリスティックなノベルビューの高速レンダリングを提供する。
提案手法により,エージェントは,画像空間における目標状態とシャッフル状態を直接比較し,現在の状況と目標設定を一貫した視点で把握することが可能となる。
これらのビューを比較するために,より普遍的な特徴表現の利点を活用し,ロバスト性や一般化を容易にする,基礎モデルから抽出した視覚的特徴との密接な特徴マッチング手法を提案する。
我々は、AI2-THOR再構成チャレンジベンチマークに対するアプローチを検証するとともに、現在の最先端手法に対する改善を実証する。
関連論文リスト
- HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。
また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。
ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文 参考訳(メタデータ) (2024-12-05T03:20:35Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation [14.064983137553353]
我々は、制御可能な光リアルな人間のアバターを作成するために、生成拡散モデルの品質と機能を高めることを目的としている。
我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Neural Radiance Field Codebooks [53.01356339021285]
我々は、オブジェクト指向表現を学習するためのスケーラブルな方法であるNeural Radiance Field Codebooks (NRC)を紹介する。
NRCは、ボリューム再構成によってデコードされたオブジェクトコードの辞書を使用して、新しいビューからシーンを再構築することを学ぶ。
NRC表現は、THORのオブジェクトナビゲーションによく対応し、2Dおよび3D表現学習法を3.1%の成功率で上回ることを示す。
論文 参考訳(メタデータ) (2023-01-10T18:03:48Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。