論文の概要: Bidirectional Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2505.16074v1
- Date: Wed, 21 May 2025 23:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.940784
- Title: Bidirectional Variational Autoencoders
- Title(参考訳): 双方向変分オートエンコーダ
- Authors: Bart Kosko, Olaoluwa Adigun,
- Abstract要約: 本稿では,新しい双方向変分オートエンコーダ(BVAE)ネットワークアーキテクチャを提案する。
BVAEは、エンコーダとデコーダのネットワークペアの代わりに、エンコードとデコードの両方に単一のニューラルネットワークを使用する。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the new bidirectional variational autoencoder (BVAE) network architecture. The BVAE uses a single neural network both to encode and decode instead of an encoder-decoder network pair. The network encodes in the forward direction and decodes in the backward direction through the same synaptic web. Simulations compared BVAEs and ordinary VAEs on the four image tasks of image reconstruction, classification, interpolation, and generation. The image datasets included MNIST handwritten digits, Fashion-MNIST, CIFAR-10, and CelebA-64 face images. The bidirectional structure of BVAEs cut the parameter count by almost 50% and still slightly outperformed the unidirectional VAEs.
- Abstract(参考訳): 本稿では,新しい双方向変分オートエンコーダ(BVAE)ネットワークアーキテクチャを提案する。
BVAEは、エンコーダとデコーダのネットワークペアの代わりに、エンコードとデコードの両方に単一のニューラルネットワークを使用する。
ネットワークは前方方向を符号化し、同じシナプスWebを介して後方方向を復号する。
画像再構成,分類,補間,生成の4つの課題について,BVAEと通常のVAEを比較した。
画像データセットには、MNIST手書き桁、Fashion-MNIST、CIFAR-10、CelebA-64顔画像が含まれる。
BVAEの双方向構造はパラメータ数を約50%削減し、一方のVAEよりもわずかに優れていた。
関連論文リスト
- Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers [6.890658812702241]
視覚的位置認識(VPR)のための新しい共同学習法を提案する。
ペア分類器は、与えられた画像のペアが同じ場所から来ているか否かを予測することができる。
トレーニングの第2段階でMaskイメージモデリングエンコーダとデコーダウェイトを再使用することにより、Pair-VPRは最先端のVPRパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-10-09T07:09:46Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z) - Residual-Recursion Autoencoder for Shape Illustration Images [16.29123499978077]
形状図形画像(SII)は工業製品の断面を記述する上で一般的で重要なものである。
本研究では,SIIから低次元特徴を抽出するためにResidual-Recursion Autoencoder (RRAE) を提案する。
ある種のニューラルネットワークトレーニングフレームワークとして、RRAEは他のオートエンコーダをラップし、パフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-02-06T01:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。