論文の概要: CerberusDet: Unified Multi-Task Object Detection
- arxiv url: http://arxiv.org/abs/2407.12632v1
- Date: Wed, 17 Jul 2024 15:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:45:33.207886
- Title: CerberusDet: Unified Multi-Task Object Detection
- Title(参考訳): CerberusDet: 統一マルチタスクオブジェクト検出
- Authors: Irina Tolstykh, Mikhail Chernyshov, Maksim Kuprashevich,
- Abstract要約: CerberusDetは、複数のオブジェクト検出タスクを処理するために設計されたマルチヘッドモデルを持つフレームワークである。
提案されたモデルはYOLOアーキテクチャ上に構築され、バックボーンとネックコンポーネントの両方から視覚的特徴を効率的に共有する。
CerberusDetは、推論時間を36%削減した最先端のデータ固有モデルに匹敵する結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is a core task in computer vision. Over the years, the development of numerous models has significantly enhanced performance. However, these conventional models are usually limited by the data on which they were trained and by the category logic they define. With the recent rise of Language-Visual Models, new methods have emerged that are not restricted to these fixed categories. Despite their flexibility, such Open Vocabulary detection models still fall short in accuracy compared to traditional models with fixed classes. At the same time, more accurate data-specific models face challenges when there is a need to extend classes or merge different datasets for training. The latter often cannot be combined due to different logics or conflicting class definitions, making it difficult to improve a model without compromising its performance. In this paper, we introduce CerberusDet, a framework with a multi-headed model designed for handling multiple object detection tasks. Proposed model is built on the YOLO architecture and efficiently shares visual features from both backbone and neck components, while maintaining separate task heads. This approach allows CerberusDet to perform very efficiently while still delivering optimal results. We evaluated the model on the PASCAL VOC dataset and additional categories from the Objects365 dataset to demonstrate its abilities. CerberusDet achieved results comparable to state-of-the-art data-specific models with 36% less inference time. The more tasks are trained together, the more efficient the proposed model becomes compared to running individual models sequentially. The training and inference code, as well as the model, are available as open-source (https://github.com/ai-forever/CerberusDet).
- Abstract(参考訳): 物体検出はコンピュータビジョンのコアタスクである。
長年にわたり、多くのモデルの開発は性能を著しく向上させてきた。
しかしながら、これらの従来のモデルは、訓練されたデータと彼らが定義したカテゴリ論理によって制限される。
近年のLanguage-Visual Modelsの台頭により、これらの固定されたカテゴリに制限されない新しい手法が出現した。
柔軟性にもかかわらず、そのようなOpen Vocabulary検出モデルは、固定クラスを持つ従来のモデルに比べて精度が低い。
同時に、クラスを拡張したり、トレーニングのために異なるデータセットをマージする必要がある場合、より正確なデータ固有モデルが課題に直面します。
後者は、異なるロジックや矛盾するクラス定義のために組み合わせられず、パフォーマンスを損なうことなくモデルを改善するのが難しくなる。
本稿では,複数のオブジェクト検出タスクを処理するために設計されたマルチヘッドモデルを備えたフレームワークであるCerberusDetを紹介する。
提案するモデルはYOLOアーキテクチャ上に構築されており、バックボーンとネックコンポーネントの両方から視覚的特徴を効率的に共有し、別々のタスクヘッドを維持している。
このアプローチにより、CerberusDetは最適な結果を提供しながら、非常に効率的に実行できる。
我々は、PASCAL VOCデータセットとObjects365データセットから追加カテゴリのモデルを評価し、その能力を実証した。
CerberusDetは、推論時間を36%削減した最先端のデータ固有モデルに匹敵する結果を得た。
タスクが一緒に訓練されるほど、提案されたモデルは、個別のモデルを逐次実行するよりも効率的になる。
トレーニングと推論のコードとモデルがオープンソースとして公開されている(https://github.com/ai-forever/CerberusDet)。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Model Selection with Model Zoo via Graph Learning [45.30615308692713]
本稿では,グラフ学習問題としてモデル選択を再構成する新しいフレームワークであるTransferGraphを紹介する。
我々は,TransferGraphが本質的なモデル-データセット関係を捕捉し,予測性能と実際の微調整結果との相関性を最大32%向上させる効果を,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-04-05T09:50:00Z) - Transfer Learning with Point Transformers [3.678615604632945]
Point Transformerは、Point Cloudデータの分類、セグメンテーション、検出のための最先端モデルである。
モデルNet10データセットに基づくこれらの注目ネットワークの分類性能について検討し、3次元MNISTデータセットを微調整後に分類するためにトレーニングされたモデルを用いた。
論文 参考訳(メタデータ) (2024-04-01T01:23:58Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。
これら2つの変更が組み合わさって、以前の作業よりも20~60%改善されていることが分かりました。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Few-Shot Lifelong Learning [35.05196800623617]
Few-Shot Lifelong Learningにより、深層学習モデルが短距離/連続学習を実行できます。
提案手法では,モデルからごく少数のパラメータを選択して,モデル全体をトレーニングする代わりに,新しいクラスのセットをトレーニングする。
提案手法は, miniImageNet, CIFAR-100, CUB-200データセットにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-01T13:26:57Z) - Comprehensive and Efficient Data Labeling via Adaptive Model Scheduling [25.525371500391568]
画像検索プラットフォームやフォトアルバム管理アプリのような特定のアプリケーションでは、十分なラベルを得るためにモデルのコレクションを実行する必要があることが多い。
本研究では,1) モデル間の意味関係をマイニングすることで,非自明なモデルの価値を予測するための強化学習に基づく手法と,2) モデル実行順序を期限付きあるいは期限依存の制約下で適応的にスケジューリングする2つのアルゴリズムからなる適応型モデルスケジューリングフレームワークを提案する。
私たちの設計では、貴重なラベルを失うことなく、約53%の実行時間を節約できます。
論文 参考訳(メタデータ) (2020-02-08T03:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。