論文の概要: A Multi Camera Unsupervised Domain Adaptation Pipeline for Object
Detection in Cultural Sites through Adversarial Learning and Self-Training
- arxiv url: http://arxiv.org/abs/2210.00808v1
- Date: Mon, 3 Oct 2022 10:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:13:45.260424
- Title: A Multi Camera Unsupervised Domain Adaptation Pipeline for Object
Detection in Cultural Sites through Adversarial Learning and Self-Training
- Title(参考訳): 対戦型学習と自己学習による文化財の物体検出のためのマルチカメラ非監視ドメイン適応パイプライン
- Authors: Giovanni Pasqualino and Antonino Furnari and Giovanni Maria Farinella
- Abstract要約: 本稿では,対象検出のためのドメイン適応の問題を研究するために,文化的な場所で収集された新しいデータセットを提案する。
本稿では,現在の最先端手法よりも優れたドメイン適応手法を提案する。
- 参考スコア(独自算出の注目度): 23.186208885878926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection algorithms allow to enable many interesting applications
which can be implemented in different devices, such as smartphones and wearable
devices. In the context of a cultural site, implementing these algorithms in a
wearable device, such as a pair of smart glasses, allow to enable the use of
augmented reality (AR) to show extra information about the artworks and enrich
the visitors' experience during their tour. However, object detection
algorithms require to be trained on many well annotated examples to achieve
reasonable results. This brings a major limitation since the annotation process
requires human supervision which makes it expensive in terms of time and costs.
A possible solution to reduce these costs consist in exploiting tools to
automatically generate synthetic labeled images from a 3D model of the site.
However, models trained with synthetic data do not generalize on real images
acquired in the target scenario in which they are supposed to be used.
Furthermore, object detectors should be able to work with different wearable
devices or different mobile devices, which makes generalization even harder. In
this paper, we present a new dataset collected in a cultural site to study the
problem of domain adaptation for object detection in the presence of multiple
unlabeled target domains corresponding to different cameras and a labeled
source domain obtained considering synthetic images for training purposes. We
present a new domain adaptation method which outperforms current
state-of-the-art approaches combining the benefits of aligning the domains at
the feature and pixel level with a self-training process. We release the
dataset at the following link https://iplab.dmi.unict.it/OBJ-MDA/ and the code
of the proposed architecture at https://github.com/fpv-iplab/STMDA-RetinaNet.
- Abstract(参考訳): オブジェクト検出アルゴリズムは、スマートフォンやウェアラブルデバイスなど、さまざまなデバイスで実装可能な、多くの興味深いアプリケーションを可能にする。
文化的なサイトの文脈では、これらのアルゴリズムをスマートグラスのようなウェアラブルデバイスに実装することで、拡張現実(AR)を使用して、アートワークに関する追加情報を表示し、ツアー中の訪問者の体験を強化することができる。
しかし、オブジェクト検出アルゴリズムは、合理的な結果を得るために、多くの注釈付きの例で訓練する必要がある。
アノテーションプロセスは人間の監督を必要とするため、時間とコストの面でコストがかかるため、これは大きな制限をもたらす。
これらのコストを削減するための可能な解決策は、サイトの3dモデルから合成ラベル付き画像を自動的に生成するツールを活用することだ。
しかし、合成データで訓練されたモデルは、使用するはずのターゲットシナリオで取得された実画像では一般化しない。
さらに、オブジェクト検出器は、異なるウェアラブルデバイスまたは異なるモバイルデバイスで動作可能であり、一般化をさらに困難にする。
本稿では,異なるカメラに対応する複数の未ラベル対象領域の存在下でのオブジェクト検出のドメイン適応問題と,学習目的の合成画像を考慮したラベル付きソースドメインについて,文化現場で収集した新しいデータセットを提案する。
本稿では,特徴量と画素レベルでの整列の利点を自己学習プロセスと組み合わせることにより,現在の最先端のアプローチに勝る新しいドメイン適応法を提案する。
データセットは以下のリンク https://iplab.dmi.unict.it/OBJ-MDA/ と https://github.com/fpv-iplab/STMDA-RetinaNet で公開しています。
関連論文リスト
- Transfer learning with generative models for object detection on limited datasets [1.4999444543328293]
海洋生物学などいくつかの分野では、各物体の周囲に有界箱を正しくラベル付けする必要がある。
本稿では,一般的なシナリオに有効な伝達学習フレームワークを提案する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
論文 参考訳(メタデータ) (2024-02-09T21:17:31Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Label-Free Synthetic Pretraining of Object Detectors [67.17371526567325]
そこで本稿では,SOLID(Synthetic Optimization layout with Instance Detection)という新しい手法を提案する。
筆者らのSOLIDアプローチは,(1)シーンアレンジメントを最適化した非ラベルの3Dモデルを用いた合成画像の生成,(2)"インスタンス検出"タスクにおけるオブジェクト検出の事前学習,の2つの主要コンポーネントから構成される。
当社のアプローチでは,事前学習のためのセマンティックラベルは必要とせず,任意の3Dモデルを使用することが可能である。
論文 参考訳(メタデータ) (2022-08-08T16:55:17Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Co-training for On-board Deep Object Detection [0.0]
人間のラベル付きバウンディングボックスを頼りにすることにより、最高のディープビジョンベースのオブジェクト検出器を教師付きで訓練する。
共同学習は、未ラベル画像における自己ラベルオブジェクトの半教師付き学習手法である。
我々は、協調学習がオブジェクトのラベル付けを緩和し、タスクに依存しないドメイン適応と単独で作業するためのパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-08-12T19:08:59Z) - An Unsupervised Domain Adaptation Scheme for Single-Stage Artwork
Recognition in Cultural Sites [20.99718135562034]
文化財におけるオブジェクト検出における教師なしドメイン適応の問題点について考察する。
16の異なるアートワークの合成画像と実画像の両方を含む新しいデータセットを作成します。
そこで我々は,DA-RetinaNet と呼ばれる RetinaNet と特徴アライメントに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-04T23:51:06Z) - Improving Object Detection with Selective Self-supervised Self-training [62.792445237541145]
本研究では,Web画像を利用した人為的対象検出データセットの強化について検討する。
画像と画像の検索によりWebイメージを検索し、他の検索手法に比べて、キュレートされたデータからのドメインシフトが少なくなる。
画像分類のためのラベルのないデータを探索する2つの並列処理をモチベーションとした新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T18:05:01Z) - Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly
Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。
提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。
提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文 参考訳(メタデータ) (2020-03-22T03:11:24Z) - Real-Time Object Detection and Recognition on Low-Compute Humanoid
Robots using Deep Learning [0.12599533416395764]
本稿では、複数の低計算NAOロボットがカメラビューにおける物体のリアルタイム検出、認識、位置決めを行うことを可能にする新しいアーキテクチャについて述べる。
オブジェクト検出と局所化のためのアルゴリズムは,複数のシナリオにおける屋内実験に基づくYOLOv3の実証的な修正である。
このアーキテクチャは、カメラフィードからニューラルネットにリアルタイムフレームを供給し、その結果を使ってロボットを誘導する効果的なエンドツーエンドパイプラインも備えている。
論文 参考訳(メタデータ) (2020-01-20T05:24:58Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。