論文の概要: Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting
- arxiv url: http://arxiv.org/abs/2508.05323v1
- Date: Thu, 07 Aug 2025 12:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.852182
- Title: Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting
- Title(参考訳): 予測不要な開語彙オブジェクト検出器の効率的な適応のためのテキストインバージョン
- Authors: Frank Ruis, Gertjan Burghouts, Hugo Kuijf,
- Abstract要約: Textual Inversion (TI)は、VLM語彙を拡張して、新しいトークンを学習したり、既存のトークンを改善したりすることで、新しいオブジェクトやきめ細かいオブジェクトを、わずか3つの例から正確に検出することができる。
記憶と勾配の計算はトークンの埋め込み次元に限られており、フルモデルの微調整よりも大幅に少ない計算を必要とする。
本手法が,様々な量的,定性的実験において,忘れることに苦しむベースライン手法に適合するか否かを評価する。
- 参考スコア(独自算出の注目度): 1.1871535995163365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large pre-trained vision language models (VLMs) has reached state-of-the-art performance on several object detection benchmarks and boasts strong zero-shot capabilities, but for optimal performance on specific targets some form of finetuning is still necessary. While the initial VLM weights allow for great few-shot transfer learning, this usually involves the loss of the original natural language querying and zero-shot capabilities. Inspired by the success of Textual Inversion (TI) in personalizing text-to-image diffusion models, we propose a similar formulation for open-vocabulary object detection. TI allows extending the VLM vocabulary by learning new or improving existing tokens to accurately detect novel or fine-grained objects from as little as three examples. The learned tokens are completely compatible with the original VLM weights while keeping them frozen, retaining the original model's benchmark performance, and leveraging its existing capabilities such as zero-shot domain transfer (e.g., detecting a sketch of an object after training only on real photos). The storage and gradient calculations are limited to the token embedding dimension, requiring significantly less compute than full-model fine-tuning. We evaluated whether the method matches or outperforms the baseline methods that suffer from forgetting in a wide variety of quantitative and qualitative experiments.
- Abstract(参考訳): 大規模学習済み視覚言語モデル(VLM)の最近の進歩は、いくつかのオブジェクト検出ベンチマークで最先端のパフォーマンスに達し、強力なゼロショット機能を備えているが、特定のターゲット上での最適なパフォーマンスには、ある種の微調整が必要である。
最初のVLM重みは、非常に数発の転送学習を可能にするが、これは通常、元々の自然言語クエリとゼロショット機能を失うことを伴う。
テキスト・画像拡散モデルのパーソナライズにおけるテキスト・インバージョン(TI)の成功に触発されて,オープン語彙オブジェクト検出のための同様の定式化を提案する。
TIは、新しいトークンを学習したり、既存のトークンを改善してVLM語彙を拡張し、新しいオブジェクトやきめ細かいオブジェクトを3つの例から正確に検出することを可能にする。
学習されたトークンは、オリジナルのVLMウェイトと完全に互換性があり、凍結を維持し、元のモデルのベンチマーク性能を維持し、ゼロショットドメイン転送(例えば、実際の写真でのみトレーニング後のオブジェクトのスケッチを検出する)のような既存の機能を活用する。
記憶と勾配の計算はトークンの埋め込み次元に限られており、フルモデルの微調整よりも大幅に少ない計算を必要とする。
本手法が,様々な量的,定性的実験において,忘れることに苦しむベースライン手法に適合するか否かを検証した。
関連論文リスト
- Few-shot target-driven instance detection based on open-vocabulary object detection models [1.0749601922718608]
オープンボキャブラリオブジェクト検出モデルは、同じ潜在空間において、より近い視覚的およびテキスト的概念をもたらす。
テキスト記述を必要とせずに,後者をワンショットあるいは少数ショットのオブジェクト認識モデルに変換する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T14:03:15Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - ZSD-YOLO: Zero-Shot YOLO Detection using Vision-Language
KnowledgeDistillation [5.424015823818208]
COCOのようなデータセットは、多くの画像に広く注釈付けされているが、多数のカテゴリがあり、さまざまなドメインにまたがるすべてのオブジェクトクラスに注釈を付けるのは高価で難しい。
我々は,CLIPのようなゼロショット事前学習モデルからの画像とテキストの埋め込みを,YOLOv5のような一段検出器からの修正意味予測ヘッドに整合させるビジョン・ランゲージ蒸留法を開発した。
推論中、我々のモデルは追加のトレーニングなしで任意の数のオブジェクトクラスを検出するように適応できる。
論文 参考訳(メタデータ) (2021-09-24T16:46:36Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Incremental Few-Shot Object Detection [96.02543873402813]
OpeN-ended Centre nEtは、いくつかの例でクラスオブジェクトの検出を漸進的に学習する検出器である。
ONCEはインクリメンタルな学習パラダイムを十分に尊重しており、新しいクラス登録では、数発のトレーニングサンプルを1回だけフォワードパスするだけでよい。
論文 参考訳(メタデータ) (2020-03-10T12:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。