論文の概要: DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2503.09271v1
- Date: Wed, 12 Mar 2025 11:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:47.488679
- Title: DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection
- Title(参考訳): DitHub: インクリメンタルなオープン語彙オブジェクト検出のためのモジュールフレームワーク
- Authors: Chiara Cappellino, Gianluca Mancusi, Matteo Mosconi, Angelo Porrello, Simone Calderara, Rita Cucchiara,
- Abstract要約: DitHubは、効率的な適応モジュールのライブラリを作成し、管理するように設計されたフレームワークである。
Version Control SystemsにインスパイアされたDitHubは、必要に応じてフェッチしてマージできるブランチのようなエキスパートモジュールを編成する。
提案手法は,ODinW-13ベンチマークとODinW-Oベンチマークの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 32.77455136447568
- License:
- Abstract: Open-Vocabulary object detectors can recognize a wide range of categories using simple textual prompts. However, improving their ability to detect rare classes or specialize in certain domains remains a challenge. While most recent methods rely on a single set of model weights for adaptation, we take a different approach by using modular deep learning. We introduce DitHub, a framework designed to create and manage a library of efficient adaptation modules. Inspired by Version Control Systems, DitHub organizes expert modules like branches that can be fetched and merged as needed. This modular approach enables a detailed study of how adaptation modules combine, making it the first method to explore this aspect in Object Detection. Our approach achieves state-of-the-art performance on the ODinW-13 benchmark and ODinW-O, a newly introduced benchmark designed to evaluate how well models adapt when previously seen classes reappear. For more details, visit our project page: https://aimagelab.github.io/DitHub/
- Abstract(参考訳): オープンボキャブラリオブジェクト検出器は、単純なテキストプロンプトを使って幅広いカテゴリを認識できる。
しかし、希少なクラスを検知したり、特定のドメインに特化したりする能力を向上させることは、依然として課題である。
最近の手法では1組のモデル重みを適応に頼っているが、モジュラーディープラーニングを用いて異なるアプローチをとる。
効率的な適応モジュールのライブラリの作成と管理を目的としたフレームワークであるDitHubを紹介した。
Version Control SystemsにインスパイアされたDitHubは、必要に応じてフェッチしてマージできるブランチのようなエキスパートモジュールを編成する。
このモジュラーアプローチは、アダプティブモジュールがどのように組み合わさるかの詳細な研究を可能にし、オブジェクト検出においてこの側面を探求する最初の方法となった。
提案手法は,ODinW-13ベンチマークとODinW-Oを用いて,従来のクラスの再出現時のモデル適合性を評価する。
詳細については、プロジェクトのページを参照してほしい。
関連論文リスト
- Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - FrOoDo: Framework for Out-of-Distribution Detection [1.3270838622986498]
FrOoDoは、デジタル病理学におけるアウト・オブ・ディストリビューション検出タスクのための使いやすいフレームワークである。
PyTorchの分類とセグメンテーションモデルで使用することができる。
論文 参考訳(メタデータ) (2022-08-01T16:11:21Z) - MM-FSOD: Meta and metric integrated few-shot object detection [14.631208179789583]
メトリクス学習とメタラーニングを統合した効果的なオブジェクト検出フレームワーク(MM-FSOD)を提案する。
我々のモデルは、トレーニングサンプルにない新しいカテゴリを正確に認識できるクラスに依存しない検出モデルである。
論文 参考訳(メタデータ) (2020-12-30T14:02:52Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。