論文の概要: 3AM: 3egment Anything with Geometric Consistency in Videos
- arxiv url: http://arxiv.org/abs/2601.08831v2
- Date: Sun, 18 Jan 2026 08:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:45.093586
- Title: 3AM: 3egment Anything with Geometric Consistency in Videos
- Title(参考訳): 3AM: ビデオの幾何学的一貫性を兼ね備えた3egment Anything
- Authors: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu,
- Abstract要約: 3AMは、MUSt3Rからの3D認識機能をSAM2に統合するトレーニング時間拡張である。
提案手法では,カメラのポーズや前処理を伴わず,推論時のRGB入力のみを必要とする。
幅広いベースラインモーション(ScanNet++、Replica)を持つ挑戦的なデータセットでは、3AMはSAM2と拡張を大きく上回っている。
- 参考スコア(独自算出の注目度): 32.069894075133305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/
- Abstract(参考訳): SAM2のようなビデオオブジェクトセグメンテーション手法は、メモリベースのアーキテクチャを通して高いパフォーマンスを達成するが、外観機能に依存しているため、大きな視点の変化に苦しむ。
従来の3Dインスタンスセグメンテーション手法は視点整合性に対処するが、カメラのポーズ、深度マップ、高価な前処理が必要である。
MUSt3Rの3D認識機能をSAM2に統合する訓練時間拡張である3AMを導入する。
我々の軽量なFeature Mergerは暗黙の幾何対応を符号化するマルチレベルMUSt3R機能を融合する。
SAM2の外観特徴と組み合わさって、空間的位置と視覚的類似性の両方を基盤とした幾何整合認識を実現する。
本研究では、フレームが空間的に一貫したオブジェクト領域を観測し、信頼性の高い3次元対応学習を実現するためのフィールド・オブ・ビュー・アウェア・サンプリング戦略を提案する。
重要な点として,本手法では,カメラのポーズや前処理を伴わず,推論時にのみRGB入力を必要とする。
幅広いベースラインモーション(ScanNet++、Replica)を持つ挑戦的なデータセットでは、3AMはSAM2と拡張を大きく上回り、ScanNet++のSelected Subset上で90.6%のIoUと71.7%のPositive IoUを達成し、最先端のVOSメソッドを+15.9および+30.4ポイント改善した。
プロジェクトページ:https://jayisaking.github.io/3AM-Page/
関連論文リスト
- SegMASt3R: Geometry Grounded Segment Matching [23.257530861472656]
我々は3次元基礎モデルの空間的理解を活用して,広義のセグメントマッチングに取り組む。
本稿では,これら3次元基礎モデルの帰納バイアスを利用して,最大180度の視点変化回転で画像対間のセグメントをマッチングするアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:31:32Z) - ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association [52.34293412010292]
ViSTA-SLAMは、カメラのクロージャを必要とせずに動作するリアルタイムの単眼視SLAMシステムである。
提案手法は, カメラトラッキングと高密度3次元再構成品質の両方において, 優れた性能を実現する。
論文 参考訳(メタデータ) (2025-09-01T16:12:23Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。