Fugu-MT 論文翻訳(概要): MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations

論文の概要: MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations

arxiv url: http://arxiv.org/abs/2312.13440v2
Date: Thu, 25 Jan 2024 18:31:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 17:27:56.113585
Title: MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations
Title（参考訳）: MGAug:画像変形の潜在空間におけるマルチモーダル幾何学的拡張
Authors: Tonmoy Hossain and Miaomiao Zhang
Abstract要約: 本稿では,幾何変形の多モード潜在空間における拡張変換を生成する新しいモデルを提案する。実験結果から,提案手法は予測精度を大幅に向上させることで,全てのベースラインよりも優れた性能を示すことがわかった。
参考スコア（独自算出の注目度）: 2.711740183729759
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Geometric transformations have been widely used to augment the size of training images. Existing methods often assume a unimodal distribution of the underlying transformations between images, which limits their power when data with multimodal distributions occur. In this paper, we propose a novel model, Multimodal Geometric Augmentation (MGAug), that for the first time generates augmenting transformations in a multimodal latent space of geometric deformations. To achieve this, we first develop a deep network that embeds the learning of latent geometric spaces of diffeomorphic transformations (a.k.a. diffeomorphisms) in a variational autoencoder (VAE). A mixture of multivariate Gaussians is formulated in the tangent space of diffeomorphisms and serves as a prior to approximate the hidden distribution of image transformations. We then augment the original training dataset by deforming images using randomly sampled transformations from the learned multimodal latent space of VAE. To validate the efficiency of our model, we jointly learn the augmentation strategy with two distinct domain-specific tasks: multi-class classification on 2D synthetic datasets and segmentation on real 3D brain magnetic resonance images (MRIs). We also compare MGAug with state-of-the-art transformation-based image augmentation algorithms. Experimental results show that our proposed approach outperforms all baselines by significantly improved prediction accuracy. Our code is publicly available at https://github.com/tonmoy-hossain/MGAug.
Abstract（参考訳）: 幾何変換はトレーニング画像のサイズを強化するために広く用いられてきた。既存の手法では、イメージ間の変換のユニモーダル分布を仮定することが多く、マルチモーダル分布を持つデータの場合、そのパワーを制限する。本稿では,MGAug(Multimodal Geometric Augmentation)と呼ばれる新しいモデルを提案する。そこで我々はまず,微分同相変換の潜在幾何学空間(微分同相写像)の学習を変分オートエンコーダ(VAE)に組み込むディープネットワークを開発した。多変量ガウスの混合は微分同相の接空間で定式化され、画像変換の隠れた分布を近似する前の役割を果たす。次に、vaeの学習されたマルチモーダル潜在空間からランダムにサンプリングされた変換を用いて画像の変形により、元のトレーニングデータセットを増強する。モデルの有効性を検証するために,我々は,2次元合成データセットのマルチクラス分類と実脳磁気共鳴画像(MRI)のセグメンテーションという,ドメイン固有の2つのタスクで拡張戦略を共同で学習した。また,MGAugと最先端の変換に基づく画像強調アルゴリズムを比較した。実験の結果,提案手法は予測精度が大幅に向上し,すべてのベースラインを上回った。私たちのコードはhttps://github.com/tonmoy-hossain/MGAug.comで公開されています。

関連論文リスト

EigenGS Representation: From Eigenspace to Gaussian Image Space [20.454762899389358]
EigenGSは、固有空間と画像空間のガウス表現を接続する効率的な変換パイプラインである。 EigenGSは直接2次元ガウスフィッティングよりも優れた再現性が得られることを示す。結果は,様々な解像度と多様なカテゴリを持つ画像に対して,EigenGSの有効性と一般化能力を強調した。
論文参考訳（メタデータ） (2025-03-10T15:27:03Z)
Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文参考訳（メタデータ） (2024-11-19T03:39:43Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文参考訳（メタデータ） (2024-03-11T10:48:56Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
Prediction of Geometric Transformation on Cardiac MRI via Convolutional Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文参考訳（メタデータ） (2022-11-12T11:29:14Z)
Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文参考訳（メタデータ） (2022-10-25T01:55:17Z)
Orthonormal Convolutions for the Rotation Based Iterative Gaussianization [64.44661342486434]
本稿では、画像ガウス化を可能にする回転型反復ガウス化RBIGの拡張について詳述する。 RBIGの回転は主成分分析や独立成分分析に基づくため、画像では小さな画像パッチや孤立画素に制限されている。 emphConvolutional RBIG:この問題を緩和する拡張として,RBIGの回転が畳み込みであることを示す。
論文参考訳（メタデータ） (2022-06-08T12:56:34Z)
Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文参考訳（メタデータ） (2022-01-24T14:12:29Z)
Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文参考訳（メタデータ） (2021-05-31T16:20:03Z)
Deep and Shallow Covariance Feature Quantization for 3D Facial Expression Recognition [7.773399781313892]
顔認識のためのマルチモーダル2D+3D特徴に基づく手法を提案する。 3次元画像から浅い特徴と,変換された2次元画像から畳み込みニューラルネットワーク(cnn)を用いた深い特徴を抽出する。 BU-3DFEおよびBosphorusデータセットで高い分類性能を達成しました。
論文参考訳（メタデータ） (2021-05-12T14:48:39Z)
The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文参考訳（メタデータ） (2021-01-15T07:57:33Z)
FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文参考訳（メタデータ） (2020-07-16T17:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。