Fugu-MT 論文翻訳(概要): Multi-modal data generation with a deep metric variational autoencoder

論文の概要: Multi-modal data generation with a deep metric variational autoencoder

arxiv url: http://arxiv.org/abs/2202.03434v1
Date: Mon, 7 Feb 2022 15:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-10 08:11:21.575166
Title: Multi-modal data generation with a deep metric variational autoencoder
Title（参考訳）: ディープメトリック変分オートエンコーダを用いたマルチモーダルデータ生成
Authors: Josefine Vilsb{\o}ll Sundgaard, Morten Rieger Hannemose, S{\o}ren Laugesen, Peter Bray, James Harte, Yosuke Kamide, Chiemi Tanaka, Rasmus R. Paulsen, and Anders Nymark Christensen
Abstract要約: 変分オートエンコーダは、潜時空間における三重項損失を採用し、各クラスクラスタ内の潜時空間をサンプリングすることで条件付きデータ生成を可能にする。本手法は, 広帯域ティンパノメトリー測定による鼓膜観察画像からなるマルチモーダルデータセットを用いて評価した。
参考スコア（独自算出の注目度）: 1.3315493279442265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a deep metric variational autoencoder for multi-modal data generation. The variational autoencoder employs triplet loss in the latent space, which allows for conditional data generation by sampling in the latent space within each class cluster. The approach is evaluated on a multi-modal dataset consisting of otoscopy images of the tympanic membrane with corresponding wideband tympanometry measurements. The modalities in this dataset are correlated, as they represent different aspects of the state of the middle ear, but they do not present a direct pixel-to-pixel correlation. The approach shows promising results for the conditional generation of pairs of images and tympanograms, and will allow for efficient data augmentation of data from multi-modal sources.
Abstract（参考訳）: マルチモーダルデータ生成のためのディープメトリック変分オートエンコーダを提案する。変分オートエンコーダは、各クラスクラスタ内の潜在空間でサンプリングすることで条件付きデータ生成を可能にする潜在空間における三重項損失を用いる。本手法は, 広帯域ティンパノメトリー測定による鼓膜観察画像からなるマルチモーダルデータセットを用いて評価した。このデータセットのモダリティは、中耳の状態の異なる側面を表すため相関するが、直接の画素間相関は示さない。このアプローチは、画像とタイパノグラムのペアの条件付き生成に有望な結果を示し、マルチモーダルソースからのデータの効率的なデータ拡張を可能にする。

関連論文リスト

Diffusion Autoencoders with Perceivers for Long, Irregular and Multimodal Astronomical Sequences [47.1547360356314]
パーシーバー付き拡散オートエンコーダ(deep)について紹介する。 daepは異種の測定をトークン化し、Perceiverエンコーダで圧縮し、Perceiver-IO拡散デコーダで再構成する。様々な分光学的および測光的な天文学的なデータセットにわたって、ディープは低い再構成誤差を達成し、より差別的な潜在空間を生成し、より微細な構造を保存している。
論文参考訳（メタデータ） (2025-10-23T14:21:01Z)
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文参考訳（メタデータ） (2025-06-09T16:20:20Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
LEMoN: Label Error Detection using Multimodal Neighbors [30.253554432833873]
マルチモーダルデータセットにおけるラベルエラーを自動的に識別するLEMoNを提案する。提案手法はラベル誤り識別におけるベースラインよりも優れており,本手法を用いてフィルタリングしたデータセットのトレーニングにより,下流分類とキャプション性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-10T19:36:30Z)
FORESEE: Multimodal and Multi-view Representation Learning for Robust Prediction of Cancer Survival [3.4686401890974197]
マルチモーダル情報のマイニングにより患者生存を確実に予測する新しいエンドツーエンドフレームワークFOESEEを提案する。クロスフュージョントランスフォーマーは、細胞レベル、組織レベル、腫瘍の不均一度レベルの特徴を効果的に利用し、予後を相関させる。ハイブリットアテンションエンコーダ(HAE)は、コンテキストアテンションモジュールを用いて、コンテキスト関係の特徴を取得する。また、モダリティ内の損失情報を再構成する非対称マスク型3重マスク型オートエンコーダを提案する。
論文参考訳（メタデータ） (2024-05-13T12:39:08Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文参考訳（メタデータ） (2023-09-25T12:31:18Z)
Implicit Data Augmentation Using Feature Interpolation for Diversified Low-Shot Image Generation [11.4559888429977]
生成モデルのトレーニングは、低データ設定で容易に発散することができる。そこで本研究では,安定したトレーニングと多様なサンプルの合成を容易にする,新しい暗黙的データ拡張手法を提案する。
論文参考訳（メタデータ） (2021-12-04T23:55:46Z)
Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文参考訳（メタデータ） (2021-10-10T02:30:31Z)
G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。 2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文参考訳（メタデータ） (2021-01-27T19:28:04Z)
Self-Supervised Multimodal Domino: in Search of Biomarkers for Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:28:13Z)
MS-Net: Multi-Site Network for Improving Prostate Segmentation with Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文参考訳（メタデータ） (2020-02-09T14:11:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。