論文の概要: MUSE: Model-based Uncertainty-aware Similarity Estimation for zero-shot 2D Object Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2510.17866v1
- Date: Wed, 15 Oct 2025 22:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.234985
- Title: MUSE: Model-based Uncertainty-aware Similarity Estimation for zero-shot 2D Object Detection and Segmentation
- Title(参考訳): MUSE:ゼロショット2次元物体検出とセグメンテーションのためのモデルベース不確かさ認識類似度推定
- Authors: Sungmin Cho, Sungbum Park, Insoo Oh,
- Abstract要約: MUSEはモデルベースのゼロショット2Dオブジェクトの検出とセグメンテーションのために設計されたトレーニング不要のフレームワークである。
入力クエリ画像から抽出した3D未表示オブジェクトと2Dオブジェクト提案からレンダリングされた2Dマルチビューテンプレートを利用する。
MUSEはBOPチャレンジ2025で最先端のパフォーマンスを達成し、クラシックコア、H3、インダストリアルトラックでランキング1位を獲得した。
- 参考スコア(独自算出の注目度): 3.862980857248212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce MUSE (Model-based Uncertainty-aware Similarity Estimation), a training-free framework designed for model-based zero-shot 2D object detection and segmentation. MUSE leverages 2D multi-view templates rendered from 3D unseen objects and 2D object proposals extracted from input query images. In the embedding stage, it integrates class and patch embeddings, where the patch embeddings are normalized using generalized mean pooling (GeM) to capture both global and local representations efficiently. During the matching stage, MUSE employs a joint similarity metric that combines absolute and relative similarity scores, enhancing the robustness of matching under challenging scenarios. Finally, the similarity score is refined through an uncertainty-aware object prior that adjusts for proposal reliability. Without any additional training or fine-tuning, MUSE achieves state-of-the-art performance on the BOP Challenge 2025, ranking first across the Classic Core, H3, and Industrial tracks. These results demonstrate that MUSE offers a powerful and generalizable framework for zero-shot 2D object detection and segmentation.
- Abstract(参考訳): 本研究では,モデルベースゼロショット2Dオブジェクトの検出とセグメンテーションのためのトレーニングフリーフレームワークであるMUSE(Model-based Uncertainty-aware similarity Estimation)を紹介する。
MUSEは、入力クエリ画像から抽出された3Dの見えないオブジェクトと2Dのオブジェクトからレンダリングされた2Dのマルチビューテンプレートを活用する。
埋め込み段階では、クラスとパッチの埋め込みを統合し、パッチの埋め込みは一般化平均プーリング(GeM)を使用して正規化され、グローバルとローカルの両方の表現を効率的にキャプチャする。
マッチングの段階では、MUSEは絶対的および相対的類似度スコアを組み合わせたジョイント類似度尺度を採用し、挑戦的なシナリオ下でのマッチングの堅牢性を高める。
最後に、類似度スコアは、提案の信頼性を調整した不確実性を認識したオブジェクトによって改善される。
追加のトレーニングや微調整なしで、MUSEはBOPチャレンジ2025で最先端のパフォーマンスを達成し、クラシックコア、H3、インダストリアルトラックでランキング1位を獲得した。
これらの結果は、MUSEがゼロショット2Dオブジェクトの検出とセグメンテーションのための強力で一般化可能なフレームワークを提供することを示している。
関連論文リスト
- Objectomaly: Objectness-Aware Refinement for OoD Segmentation with Structural Consistency and Boundary Precision [1.2036459029967645]
アウト・オブ・ディストリビューション(OoD)のセグメンテーションは、自動運転のような安全に敏感なアプリケーションには不可欠である。
既存のマスクベースの手法は、しばしば境界不整合、オブジェクト内の矛盾した異常スコア、背景雑音からの偽陽性に悩まされる。
オブジェクトレベルの先入観を組み込んだオブジェクト指向対応の洗練フレームワークである textbftextitObjectomaly を提案する。
論文 参考訳(メタデータ) (2025-07-10T06:23:35Z) - NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation [42.84923737757637]
新規オブジェクトサイクル閾値ベースインスタンス(NOCTIS)と呼ばれる新しいトレーニングフリーフレームワークを提案する。
NOCTISは2つの事前訓練されたモデルを統合する: Grounded-SAM 2 for object proposals with exact bounding box and corresponding segmentation masks; DINOv2 for robust class and patch embeddeds。
実験により,NOCTISはトレーニングや微調整を伴わずに,平均APスコアに関する最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2025-07-02T08:23:14Z) - PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。
追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。
本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-23T18:18:15Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。