論文の概要: Co-training for Deep Object Detection: Comparing Single-modal and
Multi-modal Approaches
- arxiv url: http://arxiv.org/abs/2104.11619v1
- Date: Fri, 23 Apr 2021 14:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 14:52:46.174346
- Title: Co-training for Deep Object Detection: Comparing Single-modal and
Multi-modal Approaches
- Title(参考訳): ディープオブジェクト検出のためのコトレーニング:シングルモーダルおよびマルチモーダルアプローチの比較
- Authors: Jose L. G\'omez, Gabriel Villalonga, Antonio M. L\'opez
- Abstract要約: 自己ラベル型オブジェクトバウンディングボックス(BB)取得のための半教師付き学習(SSL)手法であるco-trainingの利用に重点を置いています。
特に、画像の2つの異なるビュー、すなわち、外観(RGB)と推定深さ(D)に依存して、マルチモーダルコトレーニングの有用性を評価する。
その結果、標準SSL設定(ドメインシフトなし、人間ラベルデータが少ない)と仮想から現実のドメインシフト(仮想世界ラベルデータが多い、人間ラベルデータなし)では、マルチモーダル共訓練が単一モーダルよりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Top-performing computer vision models are powered by convolutional neural
networks (CNNs). Training an accurate CNN highly depends on both the raw sensor
data and their associated ground truth (GT). Collecting such GT is usually done
through human labeling, which is time-consuming and does not scale as we wish.
This data labeling bottleneck may be intensified due to domain shifts among
image sensors, which could force per-sensor data labeling. In this paper, we
focus on the use of co-training, a semi-supervised learning (SSL) method, for
obtaining self-labeled object bounding boxes (BBs), i.e., the GT to train deep
object detectors. In particular, we assess the goodness of multi-modal
co-training by relying on two different views of an image, namely, appearance
(RGB) and estimated depth (D). Moreover, we compare appearance-based
single-modal co-training with multi-modal. Our results suggest that in a
standard SSL setting (no domain shift, a few human-labeled data) and under
virtual-to-real domain shift (many virtual-world labeled data, no human-labeled
data) multi-modal co-training outperforms single-modal. In the latter case, by
performing GAN-based domain translation both co-training modalities are on
pair; at least, when using an off-the-shelf depth estimation model not
specifically trained on the translated images.
- Abstract(参考訳): トップパフォーマンスコンピュータビジョンモデルは畳み込みニューラルネットワーク(cnns)によって駆動される。
正確なCNNのトレーニングは、生センサデータと関連する地上真実(GT)の両方に大きく依存する。
このようなGTの収集は通常、人間のラベル付けによって行われる。
このデータのラベル付けボトルネックは、イメージセンサー間のドメインシフトによって強化される可能性がある。
本稿では,半教師付き学習(SSL)手法であるコトレーニング(co-training)を用いて,自己ラベル付きオブジェクト境界ボックス(BB),すなわち深層物体検出装置の訓練を行う。
特に,画像の2つの異なる視点,すなわち出現(rgb)と推定深度(d)に依拠して,マルチモーダル学習の良否を評価する。
さらに,外観ベースシングルモーダルコートレインとマルチモーダルの比較を行った。
我々の結果は、標準のSSL設定(ドメインシフトなし、少数の人間ラベル付きデータ)と仮想から現実のドメインシフト(多くの仮想世界ラベル付きデータ、人間ラベル付きデータなし)では、マルチモーダル協調学習はシングルモーダルを上回っていることを示唆している。
後者の場合、GANベースのドメイン翻訳を行うことで、少なくとも翻訳画像に特化して訓練されていない既成深度推定モデルを使用する場合、共に訓練されたモダリティがペアである。
関連論文リスト
- VLMine: Long-Tail Data Mining with Vision Language Models [18.412533708652102]
この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。
本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。
私たちの実験は、ベースライン技術よりも大きな改善(10%から50%)を示しています。
論文 参考訳(メタデータ) (2024-09-23T19:13:51Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - MoCo-Transfer: Investigating out-of-distribution contrastive learning
for limited-data domains [52.612507614610244]
我々は、モーメントコントラスト(MoCo)プレトレーニングからデータ制限のある設定への自己教師付きコントラスト表現の転送の利点を分析する。
ラベル付きおよびラベルなしデータの量によっては、より大きなアウト・オブ・ディストリビューションデータセットでの対照的な事前トレーニングは、ドメイン内でのMoCoの事前トレーニングよりも、ほぼ同等か、あるいはそれ以上のパフォーマンスが期待できる。
論文 参考訳(メタデータ) (2023-11-15T21:56:47Z) - Transfer Learning between Motor Imagery Datasets using Deep Learning --
Validation of Framework and Comparison of Datasets [0.0]
本稿では,コンピュータビジョンによく用いられる,シンプルなディープラーニングベースのフレームワークを提案する。
精神画像復号処理におけるデータセット間変換学習の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-04T20:58:57Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - MultiSiam: Self-supervised Multi-instance Siamese Representation
Learning for Autonomous Driving [45.23708547617418]
自己教師型学習は、モデルパフォーマンスを改善するための有望な方法かもしれない。
既存のSSLメソッドは通常、単一中心オブジェクト保証に依存している。
一般化能力の向上と最先端転送性能を実現するため,マルチインスタンス・シームズ・ネットワーク(MultiSiam)を提案する。
論文 参考訳(メタデータ) (2021-08-27T08:47:01Z) - Self domain adapted network [6.040230864736051]
ドメインシフトは、臨床実践においてディープネットワークをデプロイする上で大きな問題である。
単体テスト対象に迅速に適応できる新しい自己ドメイン適応ネットワーク(SDA-Net)を提案する。
論文 参考訳(メタデータ) (2020-07-07T01:41:34Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。