論文の概要: DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2503.09271v2
- Date: Sat, 24 May 2025 10:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.640939
- Title: DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection
- Title(参考訳): DitHub: インクリメンタルなオープン語彙オブジェクト検出のためのモジュールフレームワーク
- Authors: Chiara Cappellino, Gianluca Mancusi, Matteo Mosconi, Angelo Porrello, Simone Calderara, Rita Cucchiara,
- Abstract要約: 効率的な適応モジュールのライブラリの構築とメンテナンスを目的としたフレームワークであるDitHubを紹介した。
Version Control SystemsにインスパイアされたDitHubは、専門家モジュールを必要に応じてフェッチしてマージ可能なブランチとして管理する。
本手法は,ODinW-13ベンチマークとODinW-Oを用いて,クラス再出現の評価を行う。
- 参考スコア(独自算出の注目度): 32.77455136447568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary object detectors can generalize to an unrestricted set of categories through simple textual prompting. However, adapting these models to rare classes or reinforcing their abilities on multiple specialized domains remains essential. While recent methods rely on monolithic adaptation strategies with a single set of weights, we embrace modular deep learning. We introduce DitHub, a framework designed to build and maintain a library of efficient adaptation modules. Inspired by Version Control Systems, DitHub manages expert modules as branches that can be fetched and merged as needed. This modular approach allows us to conduct an in-depth exploration of the compositional properties of adaptation modules, marking the first such study in Object Detection. Our method achieves state-of-the-art performance on the ODinW-13 benchmark and ODinW-O, a newly introduced benchmark designed to assess class reappearance. For more details, visit our project page: https://aimagelab.github.io/DitHub/
- Abstract(参考訳): 開語彙オブジェクト検出器は、単純なテキストプロンプトによって、制限のないカテゴリの集合に一般化することができる。
しかし、これらのモデルをレアなクラスに適応させたり、複数の専門分野におけるそれらの能力を強化することは依然として不可欠である。
近年の手法では,一組の重み付きモノリシック適応戦略が採用されているが,モジュール型ディープラーニングが採用されている。
効率的な適応モジュールのライブラリの構築とメンテナンスを目的としたフレームワークであるDitHubを紹介した。
Version Control SystemsにインスパイアされたDitHubは、専門家モジュールを必要に応じてフェッチしてマージ可能なブランチとして管理する。
このモジュラーアプローチにより、適応モジュールの構成特性の詳細な探索が可能となり、オブジェクト検出における最初の研究となる。
本手法は,ODinW-13ベンチマークとODinW-Oを用いて,クラス再出現の評価を行う。
詳細については、プロジェクトのページを参照してほしい。
関連論文リスト
- OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection [86.30994231610651]
時間的行動検出(TAD)は、人間の行動を特定し、その時間的境界を動画内でローカライズすることを目的とした、基本的なビデオ理解タスクである。
我々は16種類のTADメソッドと9つの標準データセットをモジュール化したTADフレームワークであるtextbfOpenTADを提案する。
1つのモジュールを別の設計で置き換える、フィーチャベースのTADモデルをエンドツーエンドモードでトレーニングする、あるいは2つのモジュールを切り替える、という最小限の労力が必要になります。
論文 参考訳(メタデータ) (2025-02-27T18:32:27Z) - Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - FrOoDo: Framework for Out-of-Distribution Detection [1.3270838622986498]
FrOoDoは、デジタル病理学におけるアウト・オブ・ディストリビューション検出タスクのための使いやすいフレームワークである。
PyTorchの分類とセグメンテーションモデルで使用することができる。
論文 参考訳(メタデータ) (2022-08-01T16:11:21Z) - MM-FSOD: Meta and metric integrated few-shot object detection [14.631208179789583]
メトリクス学習とメタラーニングを統合した効果的なオブジェクト検出フレームワーク(MM-FSOD)を提案する。
我々のモデルは、トレーニングサンプルにない新しいカテゴリを正確に認識できるクラスに依存しない検出モデルである。
論文 参考訳(メタデータ) (2020-12-30T14:02:52Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。