論文の概要: GFreeDet: Exploiting Gaussian Splatting and Foundation Models for Model-free Unseen Object Detection in the BOP Challenge 2024
- arxiv url: http://arxiv.org/abs/2412.01552v4
- Date: Wed, 23 Apr 2025 05:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 15:55:19.967314
- Title: GFreeDet: Exploiting Gaussian Splatting and Foundation Models for Model-free Unseen Object Detection in the BOP Challenge 2024
- Title(参考訳): GFreeDet:2024年BOPチャレンジにおけるモデルフリーな未確認物体検出のためのガウス散乱と基礎モデルの構築
- Authors: Xingyu Liu, Gu Wang, Chengxi Li, Yingyue Li, Chenyangguang Zhang, Ziqin Huang, Xiangyang Ji,
- Abstract要約: GFreeDetは、モデルフリー設定下でガウススプラッティングとビジョンファウンデーションモデルを活用する、見えないオブジェクト検出手法である。
GFreeDetはCADベースの手法に匹敵する性能を達成し、MR(Mixed Reality)アプリケーションにおけるモデルフリー検出の可能性を実証している。
特に、GFreeDetはBOP Challenge 2024で、モデルフリーの2D検出トラックで最高の総合的手法と最高の高速メソッド賞を受賞した。
- 参考スコア(独自算出の注目度): 49.6703756278571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GFreeDet, an unseen object detection approach that leverages Gaussian splatting and vision Foundation models under model-free setting. Unlike existing methods that rely on predefined CAD templates, GFreeDet reconstructs objects directly from reference videos using Gaussian splatting, enabling robust detection of novel objects without prior 3D models. Evaluated on the BOP-H3 benchmark, GFreeDet achieves comparable performance to CAD-based methods, demonstrating the viability of model-free detection for mixed reality (MR) applications. Notably, GFreeDet won the best overall method and the best fast method awards in the model-free 2D detection track at BOP Challenge 2024.
- Abstract(参考訳): GFreeDetは、モデルフリー設定下でガウススプラッティングとビジョンファウンデーションモデルを活用する、見えないオブジェクト検出手法である。
事前定義されたCADテンプレートに依存する既存の方法とは異なり、GFreeDetはガウススプラッティングを用いて参照ビデオから直接オブジェクトを再構成し、従来の3Dモデルなしで新しいオブジェクトを堅牢に検出することができる。
BOP-H3ベンチマークで評価され、GFreeDetはCADベースの手法に匹敵する性能を達成し、混合現実(MR)アプリケーションに対するモデルフリー検出の可能性を実証した。
特に、GFreeDetはBOP Challenge 2024で、モデルフリーの2D検出トラックで最高の総合的手法と最高の高速メソッド賞を受賞した。
関連論文リスト
- BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation [55.13521733366838]
一連のパブリックコンペティションの第6回は、6Dオブジェクトでアートの状態をキャプチャするために組織された。
2024年、我々は3Dオブジェクトモデルが利用できず、提供された参照ビデオからのみオブジェクトをオンボードする必要がある新しいモデルフリータスクを導入した。
我々は、テスト画像で見える物体の同一性が入力として提供されない、より実用的な6Dオブジェクト検出タスクを定義した。
論文 参考訳(メタデータ) (2025-04-03T17:55:19Z) - Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Inferring the Morphology of the Galactic Center Excess with Gaussian Processes [0.3276793654637396]
フレキシブルで非パラメトリックな機械学習モデル -- Gaussian Process (GP) -- を用いて、Galactic Center Excessを記述する。
拡散ガンマ線エミッションモデリングに伴う適合の系統的不確かさを定量化する。
以上の結果から,GCEの恒星膨らみやNFW様成分の物理的解釈は,仮定された形態に非常に敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-10-28T18:00:00Z) - Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models [47.18069715855738]
近年のビジョン基礎モデルでは、普遍的な表現を抽出し、様々なタスクにおいて印象的な能力を示すことができる。
凍結基礎モデルは, 物体検出のための事前訓練を受けなくても, 汎用的特徴増強器として利用できることを示す。
論文 参考訳(メタデータ) (2024-10-25T15:38:24Z) - First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation [1.8570591025615457]
我々はECCV 2024 BRAVO Challengeの第1位となるソリューションを提示する。
モデルはCityscapesでトレーニングされ、その堅牢性はいくつかのアウト・オブ・ディストリビューションデータセットで評価される。
このアプローチは、より複雑な既存のアプローチよりも優れており、チャレンジにおいて第一位を達成しています。
論文 参考訳(メタデータ) (2024-09-25T16:15:06Z) - Object Gaussian for Monocular 6D Pose Estimation from Sparse Views [4.290993205307184]
ガウス的手法を用いたスパースビューオブジェクトポーズ推定のための新しいフレームワークであるSGPoseを紹介する。
最大10ビューを与えられたSGPoseは、ランダムな立方体から始めることで幾何学的認識表現を生成する。
典型的なベンチマーク、特にOcclusion LM-Oデータセットの実験では、SGPoseはスパースビューの制約下であっても既存のメソッドよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-04T10:03:11Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - A new method for optical steel rope non-destructive damage detection [3.195044561824979]
本稿では,高高度(空中ロープウェイ)における鋼ロープの非破壊損傷検出のための新しいアルゴリズムを提案する。
RGBD-UNetという名前のセグメンテーションモデルは、複雑な背景から鋼のロープを正確に抽出するように設計されている。
VovNetV3.5と呼ばれる検出モデルは、通常の鋼ロープと異常鋼ロープを区別するために開発された。
論文 参考訳(メタデータ) (2024-02-06T09:39:05Z) - NICE: CVPR 2023 Challenge on Zero-shot Image Captioning [149.28330263581012]
NICEプロジェクトは、堅牢な画像キャプションモデルを開発するためにコンピュータビジョンコミュニティに挑戦するために設計されている。
レポートには、新たに提案されたNICEデータセット、評価方法、課題結果、トップレベルのエントリの技術的な詳細などが含まれている。
論文 参考訳(メタデータ) (2023-09-05T05:32:19Z) - Zero-Shot Anomaly Detection with Pre-trained Segmentation Models [2.9322869014189985]
本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのゼロショットトラックについて概説する。
WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。
パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。
論文 参考訳(メタデータ) (2023-06-15T16:43:07Z) - 2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection [10.682758791557436]
本稿では,CVPR2023 Visual Anomaly and Novelty Detection (VAND) の課題に対して,Segment Any Anomaly チームが勝利したソリューションを紹介した。
マルチモーダルプロンプトを用いたゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提案する。
CVPR2023 VANで勝利したソリューションのコードを公開します。
論文 参考訳(メタデータ) (2023-06-15T11:49:44Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - Fine-Grained Hard Negative Mining: Generalizing Mitosis Detection with a
Fifth of the MIDOG 2022 Dataset [1.2183405753834562]
ミトーシス領域一般化チャレンジ2022(MIDOG)の深層学習ソリューションについて述べる。
我々のアプローチは、アグレッシブデータ拡張を用いた回転不変深層学習モデルの訓練である。
我々のモデルアンサンブルは、自動評価後の最終テストセットで.697のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-01-03T13:06:44Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。