論文の概要: Progressive Transformation Learning For Leveraging Virtual Images in
Training
- arxiv url: http://arxiv.org/abs/2211.01778v1
- Date: Thu, 3 Nov 2022 13:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:25:59.642560
- Title: Progressive Transformation Learning For Leveraging Virtual Images in
Training
- Title(参考訳): 仮想画像の学習における進歩的変換学習
- Authors: Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra Shikhar Bhattacharyya
- Abstract要約: 本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。
1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 21.590496842692744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To effectively interrogate UAV-based images for detecting objects of
interest, such as humans, it is essential to acquire large-scale UAV-based
datasets that include human instances with various poses captured from widely
varying viewing angles. As a viable alternative to laborious and costly data
curation, we introduce Progressive Transformation Learning (PTL), which
gradually augments a training dataset by adding transformed virtual images with
enhanced realism. Generally, a virtual2real transformation generator in the
conditional GAN framework suffers from quality degradation when a large domain
gap exists between real and virtual images. To deal with the domain gap, PTL
takes a novel approach that progressively iterates the following three steps:
1) select a subset from a pool of virtual images according to the domain gap,
2) transform the selected virtual images to enhance realism, and 3) add the
transformed virtual images to the training set while removing them from the
pool. In PTL, accurately quantifying the domain gap is critical. To do that, we
theoretically demonstrate that the feature representation space of a given
object detector can be modeled as a multivariate Gaussian distribution from
which the Mahalanobis distance between a virtual object and the Gaussian
distribution of each object category in the representation space can be readily
computed. Experiments show that PTL results in a substantial performance
increase over the baseline, especially in the small data and the cross-domain
regime.
- Abstract(参考訳): 人間のような対象物を検出するために、UAVベースの画像を効果的に尋問するためには、広く異なる視点から捉えたさまざまなポーズを持つ人間のインスタンスを含む大規模なUAVベースのデータセットを取得することが不可欠である。
作業的かつコストのかかるデータキュレーションの代替手段として,本研究では,改良現実主義による変換仮想画像の追加により,徐々にトレーニングデータセットを増強するプログレッシブトランスフォーメーション・トランスフォーメーション・ラーニング(ptl)を導入する。
一般的に、条件付きganフレームワークにおけるvirtual2real transformation generatorは、実画像と仮想画像の間に大きなドメインギャップが存在する場合の品質低下に苦しむ。
ドメインギャップに対処するため、PTLは以下の3つのステップを段階的に反復する新しいアプローチを採用している。
1) 領域ギャップに応じて仮想画像のプールからサブセットを選択する。
2)選択した仮想画像から現実性を高めること、及び
3) 変換された仮想イメージをトレーニングセットに追加し,プールから削除する。
PTLでは、ドメインギャップを正確に定量化することが重要である。
そのため,仮想物体間のマハラノビス距離と表現空間内の各対象圏のガウス分布が容易に計算できる多変量ガウス分布として,与えられた物体検出器の特徴表現空間をモデル化できることを理論的に証明する。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Local Manifold Augmentation for Multiview Semantic Consistency [40.28906509638541]
本稿では、データセットから基礎となるデータバリエーションを抽出し、局所多様体拡張(LMA)と呼ばれる新しい拡張演算子を構築することを提案する。
LMAは、無限の数のデータビューを作成し、セマンティクスを保持し、オブジェクトのポーズ、視点、照明条件、背景などの複雑なバリエーションをシミュレートする能力を示している。
論文 参考訳(メタデータ) (2022-11-05T02:00:13Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。