論文の概要: Towards Composable Distributions of Latent Space Augmentations
- arxiv url: http://arxiv.org/abs/2303.03462v1
- Date: Mon, 6 Mar 2023 19:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:31:50.894551
- Title: Towards Composable Distributions of Latent Space Augmentations
- Title(参考訳): 潜在空間拡張の合成可能分布へ向けて
- Authors: Omead Pooladzandi, Jeffrey Jiang, Sunay Bhat, Gregory Pottie
- Abstract要約: 本稿では、複数の拡張を簡単に組み合わせることができる潜在空間画像拡張のための構成可能なフレームワークを提案する。
我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。
これらの特性は、特定の拡張のペアでより優れたパフォーマンスを示すが、潜在空間を他の拡張のセットに転送してパフォーマンスを変更することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a composable framework for latent space image augmentation that
allows for easy combination of multiple augmentations. Image augmentation has
been shown to be an effective technique for improving the performance of a wide
variety of image classification and generation tasks. Our framework is based on
the Variational Autoencoder architecture and uses a novel approach for
augmentation via linear transformation within the latent space itself. We
explore losses and augmentation latent geometry to enforce the transformations
to be composable and involuntary, thus allowing the transformations to be
readily combined or inverted. Finally, we show these properties are better
performing with certain pairs of augmentations, but we can transfer the latent
space to other sets of augmentations to modify performance, effectively
constraining the VAE's bottleneck to preserve the variance of specific
augmentations and features of the image which we care about. We demonstrate the
effectiveness of our approach with initial results on the MNIST dataset against
both a standard VAE and a Conditional VAE. This latent augmentation method
allows for much greater control and geometric interpretability of the latent
space, making it a valuable tool for researchers and practitioners in the
field.
- Abstract(参考訳): 本研究では,複数の画像の組合せを容易に行える潜在空間画像拡張のための合成フレームワークを提案する。
画像拡張は、様々な画像分類および生成タスクの性能を向上させる効果的な技術であることが示されている。
我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。
我々は、変換を合成可能かつ不随意に強制するために、損失と拡張潜在幾何を探索し、変換を容易に結合または反転できるようにする。
最後に、これらの特性が特定の拡張子でより優れた性能を示すが、潜在空間を他の拡張子集合に移して性能を変化させることができ、vaeのボトルネックを効果的に制限し、我々が関心を持つ画像の特定の拡張子と特徴のばらつきを保ち続けることができる。
我々は,MNISTデータセットの初期結果を用いて,標準VAEと条件VAEの両方に対するアプローチの有効性を示す。
この潜在的な拡張法により、潜在空間の制御と幾何学的解釈性が大幅に向上し、この分野の研究者や実践者にとって貴重なツールとなる。
関連論文リスト
- Random Field Augmentations for Self-Supervised Representation Learning [4.3543354293465155]
本稿では,ガウス確率場に基づく局所変換の新たなファミリーを提案し,自己教師付き表現学習のための画像拡張を生成する。
我々は、ImageNet下流分類のベースラインよりも1.7%のTop-1精度向上と、アウト・オブ・ディストリビューションiNaturalist下流分類の3.6%の改善を実現している。
弱い変換は表現を改善するが、強い変換は画像の構造を劣化させることができる。
論文 参考訳(メタデータ) (2023-11-07T00:35:09Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for
Learned Image Compression [27.02281402358164]
学習画像圧縮(LLIC)のための適応重み付き大規模受容場変換符号化を提案する。
学習した画像圧縮コミュニティではじめて、控えめな複雑さを維持しながら冗長性を高めるために、カーネルベースの奥行きに関する大規模な畳み込みを導入しました。
また,大規模カーネルの潜在能力を十分に活用するために,改良されたトレーニング手法についても検討した。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Bridging Synthetic and Real Images: a Transferable and Multiple
Consistency aided Fundus Image Enhancement Framework [61.74188977009786]
画像強調とドメイン適応を同時に行うために,エンドツーエンドの教師支援フレームワークを提案する。
また,教師ネットワークと学生ネットワークのバックボーンとして,マルチステージ型マルチアテンション・ガイド・エンハンスメント・ネットワーク(MAGE-Net)を提案する。
論文 参考訳(メタデータ) (2023-02-23T06:16:15Z) - Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-15T02:51:59Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Group Equivariant Generative Adversarial Networks [7.734726150561089]
本研究では,グループ同変畳み込みネットワークを通じて,帰納的対称性をネットワークアーキテクチャに明示的に組み込む。
群変換はより表現力が高く、サンプルが少ないため、ジェネレータと判別器の間の勾配フィードバックが向上する。
論文 参考訳(メタデータ) (2020-05-04T17:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。