Fugu-MT 論文翻訳(概要): Towards Composable Distributions of Latent Space Augmentations

論文の概要: Towards Composable Distributions of Latent Space Augmentations

arxiv url: http://arxiv.org/abs/2303.03462v1
Date: Mon, 6 Mar 2023 19:37:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 17:31:50.894551
Title: Towards Composable Distributions of Latent Space Augmentations
Title（参考訳）: 潜在空間拡張の合成可能分布へ向けて
Authors: Omead Pooladzandi, Jeffrey Jiang, Sunay Bhat, Gregory Pottie
Abstract要約: 本稿では、複数の拡張を簡単に組み合わせることができる潜在空間画像拡張のための構成可能なフレームワークを提案する。我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。これらの特性は、特定の拡張のペアでより優れたパフォーマンスを示すが、潜在空間を他の拡張のセットに転送してパフォーマンスを変更することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a composable framework for latent space image augmentation that allows for easy combination of multiple augmentations. Image augmentation has been shown to be an effective technique for improving the performance of a wide variety of image classification and generation tasks. Our framework is based on the Variational Autoencoder architecture and uses a novel approach for augmentation via linear transformation within the latent space itself. We explore losses and augmentation latent geometry to enforce the transformations to be composable and involuntary, thus allowing the transformations to be readily combined or inverted. Finally, we show these properties are better performing with certain pairs of augmentations, but we can transfer the latent space to other sets of augmentations to modify performance, effectively constraining the VAE's bottleneck to preserve the variance of specific augmentations and features of the image which we care about. We demonstrate the effectiveness of our approach with initial results on the MNIST dataset against both a standard VAE and a Conditional VAE. This latent augmentation method allows for much greater control and geometric interpretability of the latent space, making it a valuable tool for researchers and practitioners in the field.
Abstract（参考訳）: 本研究では,複数の画像の組合せを容易に行える潜在空間画像拡張のための合成フレームワークを提案する。画像拡張は、様々な画像分類および生成タスクの性能を向上させる効果的な技術であることが示されている。我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。我々は、変換を合成可能かつ不随意に強制するために、損失と拡張潜在幾何を探索し、変換を容易に結合または反転できるようにする。最後に、これらの特性が特定の拡張子でより優れた性能を示すが、潜在空間を他の拡張子集合に移して性能を変化させることができ、vaeのボトルネックを効果的に制限し、我々が関心を持つ画像の特定の拡張子と特徴のばらつきを保ち続けることができる。我々は,MNISTデータセットの初期結果を用いて,標準VAEと条件VAEの両方に対するアプローチの有効性を示す。この潜在的な拡張法により、潜在空間の制御と幾何学的解釈性が大幅に向上し、この分野の研究者や実践者にとって貴重なツールとなる。

関連論文リスト

Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文参考訳（メタデータ） (2025-05-29T13:35:48Z)
Exploring Token-Level Augmentation in Vision Transformer for Semi-Supervised Semantic Segmentation [47.36641636596741]
TokenMixは、視覚変換器を用いた半教師付きセマンティックセマンティックセグメンテーションのために特別に設計されたデータ拡張技術である。本稿では,各ブランチが入力画像に画像と特徴拡張を適用したデュアルブランチフレームワークを提案する。提案手法は, 精度が顕著に向上し, 最先端のアルゴリズムよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-04T10:09:46Z)
Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文参考訳（メタデータ） (2024-11-04T23:07:51Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文参考訳（メタデータ） (2023-04-19T11:19:10Z)
Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。 LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2022-11-15T02:51:59Z)
Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。提案手法は1dB以上で最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-05-09T17:36:58Z)
Plug-In Inversion: Model-Agnostic Inversion for Vision with Data Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。 ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文参考訳（メタデータ） (2022-01-31T02:12:45Z)
Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文参考訳（メタデータ） (2021-05-31T16:20:03Z)
Group Equivariant Generative Adversarial Networks [7.734726150561089]
本研究では,グループ同変畳み込みネットワークを通じて,帰納的対称性をネットワークアーキテクチャに明示的に組み込む。群変換はより表現力が高く、サンプルが少ないため、ジェネレータと判別器の間の勾配フィードバックが向上する。
論文参考訳（メタデータ） (2020-05-04T17:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。