論文の概要: FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion
- arxiv url: http://arxiv.org/abs/2602.03137v1
- Date: Tue, 03 Feb 2026 05:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.269324
- Title: FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion
- Title(参考訳): FSOD-VFM:視覚基礎モデルとグラフ拡散を用いたFew-Shotオブジェクト検出
- Authors: Chen-Bin Feng, Youyang Sha, Longfei Liu, Yongjun Yu, Chi Man Vong, Xuanlong Yu, Xi Shen,
- Abstract要約: FSOD-VFM:Few-Shot Object Detector with Vision Foundation Modelsについて述べる。
FSOD-VFMは、カテゴリに依存しない境界ボックス生成のためのユニバーサルプロポーザルネットワーク(UPN)、正確なマスク抽出のためのSAM2、新しいオブジェクトカテゴリに効率的に適応するためのDINOv2特徴の3つの主要なコンポーネントを統合している。
提案手法では,予測境界ボックスを有向グラフのノードとしてモデル化し,ネットワーク全体の信頼度を伝搬するグラフ拡散操作を適用した。
- 参考スコア(独自算出の注目度): 18.996022873991596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present FSOD-VFM: Few-Shot Object Detectors with Vision Foundation Models, a framework that leverages vision foundation models to tackle the challenge of few-shot object detection. FSOD-VFM integrates three key components: a universal proposal network (UPN) for category-agnostic bounding box generation, SAM2 for accurate mask extraction, and DINOv2 features for efficient adaptation to new object categories. Despite the strong generalization capabilities of foundation models, the bounding boxes generated by UPN often suffer from overfragmentation, covering only partial object regions and leading to numerous small, false-positive proposals rather than accurate, complete object detections. To address this issue, we introduce a novel graph-based confidence reweighting method. In our approach, predicted bounding boxes are modeled as nodes in a directed graph, with graph diffusion operations applied to propagate confidence scores across the network. This reweighting process refines the scores of proposals, assigning higher confidence to whole objects and lower confidence to local, fragmented parts. This strategy improves detection granularity and effectively reduces the occurrence of false-positive bounding box proposals. Through extensive experiments on Pascal-5$^i$, COCO-20$^i$, and CD-FSOD datasets, we demonstrate that our method substantially outperforms existing approaches, achieving superior performance without requiring additional training. Notably, on the challenging CD-FSOD dataset, which spans multiple datasets and domains, our FSOD-VFM achieves 31.6 AP in the 10-shot setting, substantially outperforming previous training-free methods that reach only 21.4 AP. Code is available at: https://intellindust-ai-lab.github.io/projects/FSOD-VFM.
- Abstract(参考訳): 本稿では,視覚基盤モデルを利用したFSOD-VFM:Few-Shot Object Detectors with Vision Foundation Modelsを提案する。
FSOD-VFMは、カテゴリに依存しない境界ボックス生成のためのユニバーサルプロポーザルネットワーク(UPN)、正確なマスク抽出のためのSAM2、新しいオブジェクトカテゴリに効率的に適応するためのDINOv2特徴の3つの主要なコンポーネントを統合している。
基礎モデルの強力な一般化能力にもかかわらず、UPNが生成する境界ボックスはオーバーフラグメントに悩まされ、部分的な対象領域のみをカバーし、正確な完全な対象検出ではなく、多数の小さな偽陽性の提案をもたらす。
この問題に対処するために,新しいグラフベースの信頼度再重み付け手法を提案する。
提案手法では,予測境界ボックスを有向グラフのノードとしてモデル化し,ネットワーク全体の信頼度を伝搬するグラフ拡散操作を適用した。
この再重み付けプロセスは提案のスコアを洗練させ、オブジェクト全体の信頼性を高め、局所的な断片化された部分に信頼性を低くする。
この戦略は検出粒度を向上し、偽陽性境界ボックスの提案の発生を効果的に低減する。
Pascal-5$^i$、COCO-20$^i$、CD-FSODデータセットに関する広範な実験を通じて、本手法が既存の手法よりも大幅に優れ、追加の訓練を必要とせず、優れた性能を実現することを実証した。
特に、複数のデータセットやドメインにまたがる難易度の高いCD-FSODデータセットでは、FSOD-VFMは10ショット設定で31.6 APを達成した。
コードは以下の通り:https://intellindust-ai-lab.github.io/projects/FSOD-VFM。
関連論文リスト
- Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning [13.282416396765392]
本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。
本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。
限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2025-03-08T17:05:21Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - Improved Region Proposal Network for Enhanced Few-Shot Object Detection [23.871860648919593]
Few-shot Object Detection (FSOD) メソッドは、古典的なオブジェクト検出手法の限界に対する解決策として登場した。
FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。
地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により,大規模オブジェクトに対するオブジェクト検出モデルの認識が向上する。
論文 参考訳(メタデータ) (2023-08-15T02:35:59Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。