論文の概要: Multimodal Transformer for Parallel Concatenated Variational
Autoencoders
- arxiv url: http://arxiv.org/abs/2210.16174v1
- Date: Fri, 28 Oct 2022 14:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:14:11.395459
- Title: Multimodal Transformer for Parallel Concatenated Variational
Autoencoders
- Title(参考訳): 並列連結変分オートエンコーダ用マルチモーダルトランス
- Authors: Stephen D. Liang, Jerry M. Mendel
- Abstract要約: パッチの代わりに,R,G,Bチャネルの画像に対してカラムストライプを変換器入力として使用する。
合成モーダルデータ生成のための変分オートエンコーダを備えたマルチモーダル変換器を開発した。
- 参考スコア(独自算出の注目度): 22.5012275016132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a multimodal transformer using parallel
concatenated architecture. Instead of using patches, we use column stripes for
images in R, G, B channels as the transformer input. The column stripes keep
the spatial relations of original image. We incorporate the multimodal
transformer with variational autoencoder for synthetic cross-modal data
generation. The multimodal transformer is designed using multiple compression
matrices, and it serves as encoders for Parallel Concatenated Variational
AutoEncoders (PC-VAE). The PC-VAE consists of multiple encoders, one latent
space, and two decoders. The encoders are based on random Gaussian matrices and
don't need any training. We propose a new loss function based on the
interaction information from partial information decomposition. The interaction
information evaluates the input cross-modal information and decoder output. The
PC-VAE are trained via minimizing the loss function. Experiments are performed
to validate the proposed multimodal transformer for PC-VAE.
- Abstract(参考訳): 本稿では,並列連結アーキテクチャを用いたマルチモーダルトランスを提案する。
パッチの代わりに,R,G,Bチャネルの画像に対してカラムストライプを変換器入力として使用する。
コラムストライプは、元の画像の空間的関係を維持する。
マルチモーダルトランスフォーマーと変分オートエンコーダを組み込んで合成クロスモーダルデータを生成する。
マルチモーダルトランスは複数の圧縮行列を用いて設計され、並列連結変分オートエンコーダ(PC-VAE)のエンコーダとして機能する。
PC-VAEは複数のエンコーダ、1つの潜在空間、2つのデコーダで構成される。
エンコーダはランダムなガウス行列に基づいており、トレーニングは一切必要ありません。
部分的情報分解からの相互作用情報に基づく新たな損失関数を提案する。
対話情報は、入力されたクロスモーダル情報およびデコーダ出力を評価する。
PC-VAEは損失関数を最小化することで訓練される。
PC-VAE用マルチモーダルトランスの検証実験を行った。
関連論文リスト
- Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Redesigning the Transformer Architecture with Insights from
Multi-particle Dynamical Systems [32.86421107987556]
我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。
時間的進化計画であるTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。
我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。
論文 参考訳(メタデータ) (2021-09-30T14:01:06Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。