Fugu-MT 論文翻訳(概要): An Unsupervised Domain Adaptation Scheme for Single-Stage Artwork Recognition in Cultural Sites

論文の概要: An Unsupervised Domain Adaptation Scheme for Single-Stage Artwork Recognition in Cultural Sites

arxiv url: http://arxiv.org/abs/2008.01882v3
Date: Mon, 21 Dec 2020 20:37:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 00:50:22.616819
Title: An Unsupervised Domain Adaptation Scheme for Single-Stage Artwork Recognition in Cultural Sites
Title（参考訳）: 文化財における単段アートワーク認識のための教師なしドメイン適応方式
Authors: Giovanni Pasqualino and Antonino Furnari and Giovanni Signorello and Giovanni Maria Farinella
Abstract要約: 文化財におけるオブジェクト検出における教師なしドメイン適応の問題点について考察する。 16の異なるアートワークの合成画像と実画像の両方を含む新しいデータセットを作成します。そこで我々は,DA-RetinaNet と呼ばれる RetinaNet と特徴アライメントに基づく新しい手法を提案する。
参考スコア（独自算出の注目度）: 20.99718135562034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognizing artworks in a cultural site using images acquired from the user's point of view (First Person Vision) allows to build interesting applications for both the visitors and the site managers. However, current object detection algorithms working in fully supervised settings need to be trained with large quantities of labeled data, whose collection requires a lot of times and high costs in order to achieve good performance. Using synthetic data generated from the 3D model of the cultural site to train the algorithms can reduce these costs. On the other hand, when these models are tested with real images, a significant drop in performance is observed due to the differences between real and synthetic images. In this study we consider the problem of Unsupervised Domain Adaptation for object detection in cultural sites. To address this problem, we created a new dataset containing both synthetic and real images of 16 different artworks. We hence investigated different domain adaptation techniques based on one-stage and two-stage object detector, image-to-image translation and feature alignment. Based on the observation that single-stage detectors are more robust to the domain shift in the considered settings, we proposed a new method which builds on RetinaNet and feature alignment that we called DA-RetinaNet. The proposed approach achieves better results than compared methods on the proposed dataset and on Cityscapes. To support research in this field we release the dataset at the following link https://iplab.dmi.unict.it/EGO-CH-OBJ-UDA/ and the code of the proposed architecture at https://github.com/fpv-iplab/DA-RetinaNet.
Abstract（参考訳）: 利用者の視点から取得した画像(ファーストパーソナライズ・ビジョン)を用いて文化施設内のアートワークを認識することにより、訪問者とサイト管理者の両方に興味深いアプリケーションを構築することができる。しかし、完全な教師付き設定で動作する現在のオブジェクト検出アルゴリズムは、優れたパフォーマンスを達成するために多くの時間と高いコストを必要とする大量のラベル付きデータでトレーニングする必要がある。文化遺跡の3Dモデルから生成された合成データを用いて、アルゴリズムを訓練することで、これらのコストを削減できる。一方、これらのモデルが実画像でテストされた場合、実画像と合成画像の違いにより、かなりの性能低下が観測される。本研究では,文化遺跡におけるオブジェクト検出における教師なしドメイン適応の問題点について考察する。この問題に対処するために,16種類のアートワークの合成画像と実画像の両方を含む新しいデータセットを作成した。そこで我々は, 1段階および2段階の物体検出, 画像から画像への変換, 特徴のアライメントに基づく異なる領域適応手法について検討した。単一ステージ検出器は、考慮された設定におけるドメインシフトに対してより堅牢であることから、我々は、RetinaNetとDA-RetinaNetと呼ばれる特徴アライメントに基づく新しい手法を提案した。提案手法は,提案するデータと都市景観の比較手法よりも優れた結果が得られる。この分野の研究をサポートするために、我々は以下のリンクでデータセットをリリースする。 https://iplab.dmi.unict.it/ego-ch-obj-uda/ および提案されたアーキテクチャのコードはhttps://github.com/fpv-iplab/da-retinanetである。

関連論文リスト

Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文参考訳（メタデータ） (2025-03-28T06:23:29Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
A Multi Camera Unsupervised Domain Adaptation Pipeline for Object Detection in Cultural Sites through Adversarial Learning and Self-Training [23.186208885878926]
本稿では,対象検出のためのドメイン適応の問題を研究するために,文化的な場所で収集された新しいデータセットを提案する。本稿では,現在の最先端手法よりも優れたドメイン適応手法を提案する。
論文参考訳（メタデータ） (2022-10-03T10:40:58Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文参考訳（メタデータ） (2021-10-29T16:51:16Z)
Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文参考訳（メタデータ） (2021-08-04T14:51:37Z)
You Better Look Twice: a new perspective for designing accurate detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文参考訳（メタデータ） (2021-07-21T12:39:51Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。 3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文参考訳（メタデータ） (2021-01-03T04:50:03Z)
Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文参考訳（メタデータ） (2020-01-09T14:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。