論文の概要: MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image
Deformations
- arxiv url: http://arxiv.org/abs/2312.13440v2
- Date: Thu, 25 Jan 2024 18:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:27:56.113585
- Title: MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image
Deformations
- Title(参考訳): MGAug:画像変形の潜在空間におけるマルチモーダル幾何学的拡張
- Authors: Tonmoy Hossain and Miaomiao Zhang
- Abstract要約: 本稿では,幾何変形の多モード潜在空間における拡張変換を生成する新しいモデルを提案する。
実験結果から,提案手法は予測精度を大幅に向上させることで,全てのベースラインよりも優れた性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 2.711740183729759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric transformations have been widely used to augment the size of
training images. Existing methods often assume a unimodal distribution of the
underlying transformations between images, which limits their power when data
with multimodal distributions occur. In this paper, we propose a novel model,
Multimodal Geometric Augmentation (MGAug), that for the first time generates
augmenting transformations in a multimodal latent space of geometric
deformations. To achieve this, we first develop a deep network that embeds the
learning of latent geometric spaces of diffeomorphic transformations (a.k.a.
diffeomorphisms) in a variational autoencoder (VAE). A mixture of multivariate
Gaussians is formulated in the tangent space of diffeomorphisms and serves as a
prior to approximate the hidden distribution of image transformations. We then
augment the original training dataset by deforming images using randomly
sampled transformations from the learned multimodal latent space of VAE. To
validate the efficiency of our model, we jointly learn the augmentation
strategy with two distinct domain-specific tasks: multi-class classification on
2D synthetic datasets and segmentation on real 3D brain magnetic resonance
images (MRIs). We also compare MGAug with state-of-the-art transformation-based
image augmentation algorithms. Experimental results show that our proposed
approach outperforms all baselines by significantly improved prediction
accuracy. Our code is publicly available at
https://github.com/tonmoy-hossain/MGAug.
- Abstract(参考訳): 幾何変換はトレーニング画像のサイズを強化するために広く用いられてきた。
既存の手法では、イメージ間の変換のユニモーダル分布を仮定することが多く、マルチモーダル分布を持つデータの場合、そのパワーを制限する。
本稿では,MGAug(Multimodal Geometric Augmentation)と呼ばれる新しいモデルを提案する。
そこで我々はまず,微分同相変換の潜在幾何学空間(微分同相写像)の学習を変分オートエンコーダ(VAE)に組み込むディープネットワークを開発した。
多変量ガウスの混合は微分同相の接空間で定式化され、画像変換の隠れた分布を近似する前の役割を果たす。
次に、vaeの学習されたマルチモーダル潜在空間からランダムにサンプリングされた変換を用いて画像の変形により、元のトレーニングデータセットを増強する。
モデルの有効性を検証するために,我々は,2次元合成データセットのマルチクラス分類と実脳磁気共鳴画像(MRI)のセグメンテーションという,ドメイン固有の2つのタスクで拡張戦略を共同で学習した。
また,MGAugと最先端の変換に基づく画像強調アルゴリズムを比較した。
実験の結果,提案手法は予測精度が大幅に向上し,すべてのベースラインを上回った。
私たちのコードはhttps://github.com/tonmoy-hossain/MGAug.comで公開されています。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture [7.825153552141346]
本稿では幾何学的変換に敏感な幾何学的変換感性アーキテクチャを提案する。
本手法は, 回転予測や変換の異なる目標の利用により, 学生に敏感になるよう促す。
提案手法は,非対象中心画像を事前学習データとして用いる際の性能向上を示す。
論文 参考訳(メタデータ) (2023-04-17T06:32:37Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Prediction of Geometric Transformation on Cardiac MRI via Convolutional
Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。
幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:29:14Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Orthonormal Convolutions for the Rotation Based Iterative
Gaussianization [64.44661342486434]
本稿では、画像ガウス化を可能にする回転型反復ガウス化RBIGの拡張について詳述する。
RBIGの回転は主成分分析や独立成分分析に基づくため、画像では小さな画像パッチや孤立画素に制限されている。
emphConvolutional RBIG:この問題を緩和する拡張として,RBIGの回転が畳み込みであることを示す。
論文 参考訳(メタデータ) (2022-06-08T12:56:34Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Deep and Shallow Covariance Feature Quantization for 3D Facial
Expression Recognition [7.773399781313892]
顔認識のためのマルチモーダル2D+3D特徴に基づく手法を提案する。
3次元画像から浅い特徴と,変換された2次元画像から畳み込みニューラルネットワーク(cnn)を用いた深い特徴を抽出する。
BU-3DFEおよびBosphorusデータセットで高い分類性能を達成しました。
論文 参考訳(メタデータ) (2021-05-12T14:48:39Z) - The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文 参考訳(メタデータ) (2021-01-15T07:57:33Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。