論文の概要: Multi-View Foundation Models
- arxiv url: http://arxiv.org/abs/2512.15708v1
- Date: Wed, 17 Dec 2025 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.118629
- Title: Multi-View Foundation Models
- Title(参考訳): マルチビュー基礎モデル
- Authors: Leo Segre, Or Hirschorn, Shai Avidan,
- Abstract要約: ファンデーションモデルは、様々なコンピュータビジョンアプリケーションにおいて重要なツールである。
本稿では,ファンデーションモデルを多視点ファウンデーションモデルに変換する方法を提案する。
本稿では,トランスフォーマーをベースとした基礎モデルを,中間的な3次元アテンション層で拡張する方法を示す。
- 参考スコア(独自算出の注目度): 22.65339008198238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are vital tools in various Computer Vision applications. They take as input a single RGB image and output a deep feature representation that is useful for various applications. However, in case we have multiple views of the same 3D scene, they operate on each image independently and do not always produce consistent features for the same 3D point. We propose a way to convert a Foundation Model into a Multi-View Foundation Model. Such a model takes as input a set of images and outputs a feature map for each image such that the features of corresponding points are as consistent as possible. This approach bypasses the need to build a consistent 3D model of the features and allows direct manipulation in the image space. Specifically, we show how to augment Transformers-based foundation models (i.e., DINO, SAM, CLIP) with intermediate 3D-aware attention layers that help match features across different views. As leading examples, we show surface normal estimation and multi-view segmentation tasks. Quantitative experiments show that our method improves feature matching considerably compared to current foundation models.
- Abstract(参考訳): ファンデーションモデルは、様々なコンピュータビジョンアプリケーションにおいて重要なツールである。
単一のRGBイメージを入力として、さまざまなアプリケーションに有用な深い特徴表現を出力する。
しかし、同じ3Dシーンの複数のビューがある場合、各画像に対して独立して動作し、同じ3Dポイントに対して常に一貫した機能を生成するとは限らない。
本稿では,ファンデーションモデルを多視点ファウンデーションモデルに変換する方法を提案する。
このようなモデルは、画像の集合を入力として、対応する点の特徴が可能な限り一貫性があるように、各画像の特徴マップを出力する。
このアプローチは、機能の一貫性のある3Dモデルの構築の必要性を回避し、画像空間での直接操作を可能にする。
具体的には、トランスフォーマーベースのファンデーションモデル(DINO、SAM、CLIP)を、異なるビューにまたがる機能にマッチする、中間的な3D対応のアテンションレイヤで拡張する方法を示す。
代表的な例として、表面正規化と多視点分割タスクを示す。
定量的実験により,本手法は現在の基礎モデルと比較して特徴マッチングを大幅に改善することが示された。
関連論文リスト
- Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors [21.97308739556984]
KeyDiff3Dは、教師なし単眼の3Dキーポイント推定のためのフレームワークである。
我々は、事前訓練された多視点拡散モデルに埋め込まれた強力な幾何学的先行性を利用する。
拡散モデルにより生成された3次元オブジェクトの操作を可能にするパイプラインを導入する。
論文 参考訳(メタデータ) (2025-07-16T15:29:07Z) - Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。