論文の概要: Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2602.18811v1
- Date: Sat, 21 Feb 2026 12:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.327214
- Title: Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection
- Title(参考訳): クロスドメインFew-Shotオブジェクト検出のためのマルチモーダルプロトタイプの学習
- Authors: Wanqi Wang, Jingcai Guo, Yuxiang Cai, Zhi Chen,
- Abstract要約: Cross-Domain Few-Shot Object Detection (CD-FSOD) は、いくつかのラベル付き例があるだけで、目に見えないターゲットドメインで新しいクラスを検出することを目的としている。
本稿では,LMPと呼ばれるマルチモーダルプロトタイプを目標領域から抽出した視覚的特徴とテキストガイダンスを結合して学習するデュアルブランチ検出器を提案する。
- 参考スコア(独自算出の注目度): 25.15191353465313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Domain Few-Shot Object Detection (CD-FSOD) aims to detect novel classes in unseen target domains given only a few labeled examples. While open-vocabulary detectors built on vision-language models (VLMs) transfer well, they depend almost entirely on text prompts, which encode domain-invariant semantics but miss domain-specific visual information needed for precise localization under few-shot supervision. We propose a dual-branch detector that Learns Multi-modal Prototypes, dubbed LMP, by coupling textual guidance with visual exemplars drawn from the target domain. A Visual Prototype Construction module aggregates class-level prototypes from support RoIs and dynamically generates hard-negative prototypes in query images via jittered boxes, capturing distractors and visually similar backgrounds. In the visual-guided branch, we inject these prototypes into the detection pipeline with components mirrored from the text branch as the starting point for training, while a parallel text-guided branch preserves open-vocabulary semantics. The branches are trained jointly and ensembled at inference by combining semantic abstraction with domain-adaptive details. On six cross-domain benchmark datasets and standard 1/5/10-shot settings, our method achieves state-of-the-art or highly competitive mAP.
- Abstract(参考訳): Cross-Domain Few-Shot Object Detection (CD-FSOD) は、いくつかのラベル付き例があるだけで、目に見えないターゲットドメインで新しいクラスを検出することを目的としている。
視覚言語モデル(VLM)上に構築されたオープンボキャブラリ検出器は、ほとんど完全にテキストプロンプトに依存しており、ドメイン不変のセマンティクスをエンコードするが、数ショットの監督下で正確な位置決めに必要なドメイン固有視覚情報を見逃す。
本稿では,LMPと呼ばれるマルチモーダルプロトタイプを目標領域から抽出した視覚的特徴とテキストガイダンスを結合して学習するデュアルブランチ検出器を提案する。
Visual Prototype Constructionモジュールは、RoIのサポートからクラスレベルのプロトタイプを集約し、ジッタボックスを通じてクエリイメージのハードネガティブなプロトタイプを動的に生成し、イントラクタと視覚的に類似したバックグラウンドをキャプチャする。
視覚誘導ブランチでは、これらのプロトタイプを検出パイプラインに注入し、テキストブランチからのコンポーネントをトレーニングの出発点としてミラーし、平行テキストガイドブランチはオープン語彙のセマンティクスを保存する。
ブランチは、セマンティック抽象化とドメイン適応詳細を組み合わせることで、推論時に共同でトレーニングされ、アンサンブルされる。
6つのクロスドメインベンチマークデータセットと標準1/5/10ショット設定において,本手法は最先端あるいは競争性の高いmAPを実現する。
関連論文リスト
- Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding [11.244257545057508]
Prototype-Aware Multimodal Learning (PAML) は、視覚的・言語的モダリティの不完全整合、クロスモーダルな特徴融合の欠如、意味的プロトタイプ情報の有効利用に対処する革新的なフレームワークである。
我々のフレームワークは,オープン語彙シーンにおける最先端の成果を達成しつつ,標準的な場面での競争性能を示す。
論文 参考訳(メタデータ) (2025-09-08T02:27:10Z) - Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection [12.5655114431805]
単一のドメインでトレーニングされたオブジェクト検出器を複数の見えないドメインに一般化することは、難しい作業である。
ビジョンランゲージモデル(VLM)に基づく拡張技術は有効であることが証明されているが、検出器のバックボーンはVLMの画像エンコーダと同じ構造を持つ必要がある。
単一ドメインの一般化のための言語駆動型デュアルスタイル混合(LDDS)を提案する。
論文 参考訳(メタデータ) (2025-05-12T04:15:27Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Cross Domain Object Detection by Target-Perceived Dual Branch
Distillation [49.68119030818388]
クロスドメインオブジェクト検出は、現実的で挑戦的なタスクです。
本稿では,TDD(Target-perceived Dual-branch Distillation)フレームワークを提案する。
私たちのTDDは、すべてのベンチマークで最先端のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-05-03T03:51:32Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。