論文の概要: Continuous 3D Perception Model with Persistent State
- arxiv url: http://arxiv.org/abs/2501.12387v1
- Date: Tue, 21 Jan 2025 18:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:05.134362
- Title: Continuous 3D Perception Model with Persistent State
- Title(参考訳): 持続状態を考慮した連続3次元知覚モデル
- Authors: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa,
- Abstract要約: 広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。
我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。
各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
- 参考スコア(独自算出の注目度): 111.83854602049222
- License:
- Abstract: We present a unified framework capable of solving a broad range of 3D tasks. Our approach features a stateful recurrent model that continuously updates its state representation with each new observation. Given a stream of images, this evolving state can be used to generate metric-scale pointmaps (per-pixel 3D points) for each new input in an online fashion. These pointmaps reside within a common coordinate system, and can be accumulated into a coherent, dense scene reconstruction that updates as new images arrive. Our model, called CUT3R (Continuous Updating Transformer for 3D Reconstruction), captures rich priors of real-world scenes: not only can it predict accurate pointmaps from image observations, but it can also infer unseen regions of the scene by probing at virtual, unobserved views. Our method is simple yet highly flexible, naturally accepting varying lengths of images that may be either video streams or unordered photo collections, containing both static and dynamic content. We evaluate our method on various 3D/4D tasks and demonstrate competitive or state-of-the-art performance in each. Project Page: https://cut3r.github.io/
- Abstract(参考訳): 広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。
我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。
画像のストリームが与えられると、この進化状態を使用して、オンラインの方法で新しい入力毎にメトリックスケールのポイントマップ(ピクセルごとの3Dポイント)を生成することができる。
これらのポイントマップは共通座標系内に存在し、新しい画像が到着すると更新するコヒーレントで密度の高いシーン再構成に蓄積することができる。
我々のモデルは、CUT3R(Continuous Updating Transformer for 3D Reconstruction)と呼ばれ、画像観察から正確なポイントマップを予測できるだけでなく、仮想的に観測されていないビューを探索することで、シーンの見えない領域を推測することができる。
本手法は単純かつ柔軟であり,静的・動的コンテンツを含むビデオストリームあるいは非順序写真コレクションのいずれであっても,様々な画像長を自然に受け入れる。
各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
Project Page: https://cut3r.github.io/
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。