論文の概要: Transfer learning with generative models for object detection on limited datasets
- arxiv url: http://arxiv.org/abs/2402.06784v2
- Date: Thu, 13 Jun 2024 10:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:45:25.502662
- Title: Transfer learning with generative models for object detection on limited datasets
- Title(参考訳): 限られたデータセットを用いた物体検出のための生成モデルを用いた移動学習
- Authors: Matteo Paiano, Stefano Martina, Carlotta Giannelli, Filippo Caruso,
- Abstract要約: 海洋生物学などいくつかの分野では、各物体の周囲に有界箱を正しくラベル付けする必要がある。
本稿では,一般的なシナリオに有効な伝達学習フレームワークを提案する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of data is limited in some fields, especially for object detection tasks, where it is necessary to have correctly labeled bounding boxes around each object. A notable example of such data scarcity is found in the domain of marine biology, where it is useful to develop methods to automatically detect submarine species for environmental monitoring. To address this data limitation, the state-of-the-art machine learning strategies employ two main approaches. The first involves pretraining models on existing datasets before generalizing to the specific domain of interest. The second strategy is to create synthetic datasets specifically tailored to the target domain using methods like copy-paste techniques or ad-hoc simulators. The first strategy often faces a significant domain shift, while the second demands custom solutions crafted for the specific task. In response to these challenges, here we propose a transfer learning framework that is valid for a generic scenario. In this framework, generated images help to improve the performances of an object detector in a few-real data regime. This is achieved through a diffusion-based generative model that was pretrained on large generic datasets. With respect to the state-of-the-art, we find that it is not necessary to fine tune the generative model on the specific domain of interest. We believe that this is an important advance because it mitigates the labor-intensive task of manual labeling the images in object detection tasks. We validate our approach focusing on fishes in an underwater environment, and on the more common domain of cars in an urban setting. Our method achieves detection performance comparable to models trained on thousands of images, using only a few hundreds of input data. Our results pave the way for new generative AI-based protocols for machine learning applications in various domains.
- Abstract(参考訳): データの可用性はフィールドによって制限されており、特にオブジェクト検出タスクでは、各オブジェクトの周りのバウンディングボックスを正しくラベル付けする必要がある。
このようなデータ不足の顕著な例は海洋生物学の領域で見られ、環境モニタリングのための潜水艦種を自動的に検出する方法を開発するのに有用である。
このデータ制限に対処するために、最先端の機械学習戦略には2つの主要なアプローチがある。
1つ目は、特定の関心領域に一般化する前に、既存のデータセットのモデルを事前トレーニングすることである。
第2の戦略は、コピーペースト技術やアドホックシミュレータといった手法を使用して、ターゲットドメインに特化された合成データセットを作成することである。
第1の戦略はしばしば重要なドメインシフトに直面し、第2の戦略は特定のタスクのために作られたカスタムソリューションを要求する。
これらの課題に対応して,一般的なシナリオに有効な伝達学習フレームワークを提案する。
このフレームワークでは、生成した画像は、少数の実データ構造におけるオブジェクト検出器の性能を向上させるのに役立ちます。
これは、大規模なジェネリックデータセットで事前訓練された拡散ベースの生成モデルによって達成される。
最先端技術に関しては、特定の関心領域で生成モデルを微調整する必要はないことが分かる。
これは、オブジェクト検出タスクにおいて、画像に手動でラベルをつけるという、労働集約的な作業を軽減するため、重要な進歩であると考えている。
本研究は, 水中環境における魚類と, 都市環境における自動車のより一般的な領域に焦点をあてたアプローチを検証する。
本手法は,数百の入力データのみを用いて,何千もの画像上で訓練されたモデルに匹敵する検出性能を実現する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
関連論文リスト
- Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - A Multi Camera Unsupervised Domain Adaptation Pipeline for Object
Detection in Cultural Sites through Adversarial Learning and Self-Training [23.186208885878926]
本稿では,対象検出のためのドメイン適応の問題を研究するために,文化的な場所で収集された新しいデータセットを提案する。
本稿では,現在の最先端手法よりも優れたドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-03T10:40:58Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z) - Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文 参考訳(メタデータ) (2021-01-03T04:50:03Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Co-training for On-board Deep Object Detection [0.0]
人間のラベル付きバウンディングボックスを頼りにすることにより、最高のディープビジョンベースのオブジェクト検出器を教師付きで訓練する。
共同学習は、未ラベル画像における自己ラベルオブジェクトの半教師付き学習手法である。
我々は、協調学習がオブジェクトのラベル付けを緩和し、タスクに依存しないドメイン適応と単独で作業するためのパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-08-12T19:08:59Z) - Learning Cross-domain Generalizable Features by Representation
Disentanglement [11.74643883335152]
ディープラーニングモデルは、異なるドメイン間で限定的な一般化性を示す。
本稿では,MIDNet(Multual-Information-based Disentangled Neural Networks)を提案する。
本手法は手書き桁データセットと胎児超音波データセットを用いて画像分類を行う。
論文 参考訳(メタデータ) (2020-02-29T17:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。