Fugu-MT 論文翻訳(概要): Progressive Transformation Learning for Leveraging Virtual Images in Training

論文の概要: Progressive Transformation Learning for Leveraging Virtual Images in Training

arxiv url: http://arxiv.org/abs/2211.01778v2
Date: Mon, 27 Mar 2023 19:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 19:26:40.453346
Title: Progressive Transformation Learning for Leveraging Virtual Images in Training
Title（参考訳）: 仮想画像を活用した学習におけるプログレッシブトランスフォーメーション学習
Authors: Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra Shikhar Bhattacharyya
Abstract要約: 本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。 1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
参考スコア（独自算出の注目度）: 21.590496842692744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To effectively interrogate UAV-based images for detecting objects of interest, such as humans, it is essential to acquire large-scale UAV-based datasets that include human instances with various poses captured from widely varying viewing angles. As a viable alternative to laborious and costly data curation, we introduce Progressive Transformation Learning (PTL), which gradually augments a training dataset by adding transformed virtual images with enhanced realism. Generally, a virtual2real transformation generator in the conditional GAN framework suffers from quality degradation when a large domain gap exists between real and virtual images. To deal with the domain gap, PTL takes a novel approach that progressively iterates the following three steps: 1) select a subset from a pool of virtual images according to the domain gap, 2) transform the selected virtual images to enhance realism, and 3) add the transformed virtual images to the training set while removing them from the pool. In PTL, accurately quantifying the domain gap is critical. To do that, we theoretically demonstrate that the feature representation space of a given object detector can be modeled as a multivariate Gaussian distribution from which the Mahalanobis distance between a virtual object and the Gaussian distribution of each object category in the representation space can be readily computed. Experiments show that PTL results in a substantial performance increase over the baseline, especially in the small data and the cross-domain regime.
Abstract（参考訳）: 人間のような対象物を検出するために、UAVベースの画像を効果的に尋問するためには、広く異なる視点から捉えたさまざまなポーズを持つ人間のインスタンスを含む大規模なUAVベースのデータセットを取得することが不可欠である。作業的かつコストのかかるデータキュレーションの代替手段として,本研究では,改良現実主義による変換仮想画像の追加により,徐々にトレーニングデータセットを増強するプログレッシブトランスフォーメーション・トランスフォーメーション・ラーニング(ptl)を導入する。一般的に、条件付きganフレームワークにおけるvirtual2real transformation generatorは、実画像と仮想画像の間に大きなドメインギャップが存在する場合の品質低下に苦しむ。ドメインギャップに対処するため、PTLは以下の3つのステップを段階的に反復する新しいアプローチを採用している。 1) 領域ギャップに応じて仮想画像のプールからサブセットを選択する。 2)選択した仮想画像から現実性を高めること、及び 3) 変換された仮想イメージをトレーニングセットに追加し,プールから削除する。 PTLでは、ドメインギャップを正確に定量化することが重要である。そのため,仮想物体間のマハラノビス距離と表現空間内の各対象圏のガウス分布が容易に計算できる多変量ガウス分布として,与えられた物体検出器の特徴表現空間をモデル化できることを理論的に証明する。実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。

関連論文リスト

Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文参考訳（メタデータ） (2024-03-11T10:48:56Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Local Manifold Augmentation for Multiview Semantic Consistency [40.28906509638541]
本稿では、データセットから基礎となるデータバリエーションを抽出し、局所多様体拡張(LMA)と呼ばれる新しい拡張演算子を構築することを提案する。 LMAは、無限の数のデータビューを作成し、セマンティクスを保持し、オブジェクトのポーズ、視点、照明条件、背景などの複雑なバリエーションをシミュレートする能力を示している。
論文参考訳（メタデータ） (2022-11-05T02:00:13Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文参考訳（メタデータ） (2021-08-16T15:16:47Z)
Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文参考訳（メタデータ） (2020-06-16T17:06:02Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。