論文の概要: Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.06374v1
- Date: Fri, 06 Mar 2026 15:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.028323
- Title: Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
- Title(参考訳): Rewis3d:リコンストラクションにより,弱修正セマンティックセマンティックセグメンテーションが改善される
- Authors: Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele,
- Abstract要約: Rewis3dは、フィードフォワード3D再構成の最近の進歩を活用し、2D画像上の弱い教師付きセマンティックセグメンテーションを著しく改善するフレームワークである。
Rewis3dはスパース監視における最先端のパフォーマンスを達成し、ラベルの追加や推論オーバーヘッドを必要とせずに既存のアプローチを2~7%上回ることを示す。
- 参考スコア(独自算出の注目度): 58.37682525044409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Rewis3d, a framework that leverages recent advances in feed-forward 3D reconstruction to significantly improve weakly supervised semantic segmentation on 2D images. Obtaining dense, pixel-level annotations remains a costly bottleneck for training segmentation models. Alleviating this issue, sparse annotations offer an efficient weakly-supervised alternative. However, they still incur a performance gap. To address this, we introduce a novel approach that leverages 3D scene reconstruction as an auxiliary supervisory signal. Our key insight is that 3D geometric structure recovered from 2D videos provides strong cues that can propagate sparse annotations across entire scenes. Specifically, a dual student-teacher architecture enforces semantic consistency between 2D images and reconstructed 3D point clouds, using state-of-the-art feed-forward reconstruction to generate reliable geometric supervision. Extensive experiments demonstrate that Rewis3d achieves state-of-the-art performance in sparse supervision, outperforming existing approaches by 2-7% without requiring additional labels or inference overhead.
- Abstract(参考訳): フィードフォワード3次元再構成の最近の進歩を活用して2次元画像の弱い教師付きセマンティックセマンティックセグメンテーションを著しく改善するフレームワークであるRewis3dを提案する。
密集したピクセルレベルのアノテーションを持つことは、セグメンテーションモデルをトレーニングする上で、依然としてコストのかかるボトルネックである。
この問題を回避するため、スパースアノテーションは効率的な弱教師付き代替手段を提供する。
しかし、彼らはまだパフォーマンスのギャップを生じさせています。
そこで本研究では,3次元シーン再構成を補助的な監視信号として活用する手法を提案する。
重要な洞察は、2Dビデオから回収された3D幾何学構造は、シーン全体にわたってスパースアノテーションを伝達する強力な手がかりを提供するということだ。
具体的には、2Dイメージと再構成された3Dポイントクラウド間のセマンティック一貫性を、最新のフィードフォワード再構成を用いて実現し、信頼性の高い幾何学的監視を生成する。
広範な実験により、Rewis3dはスパース監視における最先端のパフォーマンスを達成し、ラベルの追加や推論オーバーヘッドを必要とせず、既存のアプローチを2~7%上回る結果となった。
関連論文リスト
- RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations [70.83499963694238]
RnG(Reconstruction and Generation)は、再構成と生成を統合する新しいフィードフォワードトランスである。
可視的幾何学を再構築し、可視的でコヒーレントな不明瞭な幾何学と外観を生成する。
提案手法は, 一般化可能な3次元再構成と新しいビュー生成の両方において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T17:25:32Z) - OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction [11.617237358347777]
OVSeg3Rは、3D再構成の助けを借りて、よく研究された2D知覚モデルからオープン語彙の3Dインスタンスセグメンテーションを学習する。
OVSeg3Rは2Dビデオの再構成シーンを直接入力として採用し、手作業による手作業の調整は避ける。
OVSeg3Rはテールクラスとヘッドクラスのパフォーマンスギャップを著しく狭め、ScanNet200ベンチマークで+2.3 mAPを全体として改善した。
論文 参考訳(メタデータ) (2025-09-28T00:41:22Z) - Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding [6.7958985137291235]
Reg3DはReconstructive Geometry Instruction Tuningフレームワークである。
私たちの重要な洞察は、効果的な3D理解には、単に記述するのではなく、基礎となる幾何学的構造を再構築する必要があります。
ScanQA、Scan2Cap、ScanRefer、SQA3Dの実験は、Reg3Dが大幅なパフォーマンス改善を提供することを示した。
論文 参考訳(メタデータ) (2025-09-03T18:36:44Z) - PE3R: Perception-Efficient 3D Reconstruction [54.730257992806116]
Perception-Efficient 3D Reconstruction (PE3R) は、精度と効率の両立を図った新しいフレームワークである。
このフレームワークは3次元のセマンティックフィールド再構成において最小9倍のスピードアップを実現し、認識精度と再現精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-10T16:29:10Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。