論文の概要: Benchmarking Multimodal Variational Autoencoders: GeBiD Dataset and
Toolkit
- arxiv url: http://arxiv.org/abs/2209.03048v1
- Date: Wed, 7 Sep 2022 10:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:48:24.900451
- Title: Benchmarking Multimodal Variational Autoencoders: GeBiD Dataset and
Toolkit
- Title(参考訳): マルチモーダル変分オートエンコーダのベンチマーク:GeBiDデータセットとツールキット
- Authors: Gabriela Sejnova, Michal Vavrecka, Karla Stepanova
- Abstract要約: 本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした合成バイモーダルデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Variational Autoencoders (VAEs) have been a subject of intense
research in the past years as they can integrate multiple modalities into a
joint representation and can thus serve as a promising tool for both data
classification and generation. Several approaches toward multimodal VAE
learning have been proposed so far, their comparison and evaluation have
however been rather inconsistent. One reason is that the models differ at the
implementation level, another problem is that the datasets commonly used in
these cases were not initially designed for the evaluation of multimodal
generative models. This paper addresses both mentioned issues. First, we
propose a toolkit for systematic multimodal VAE training and comparison.
Second, we present a synthetic bimodal dataset designed for a comprehensive
evaluation of the joint generation and cross-generation capabilities. We
demonstrate the utility of the dataset by comparing state-of-the-art models.
- Abstract(参考訳): マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを結合表現に統合し、データ分類と生成の両方のための有望なツールとして機能できるため、過去数年間で激しい研究の対象となっている。
マルチモーダルVAE学習へのいくつかのアプローチが提案されているが、その比較と評価は相容れない。
1つの理由は、モデルが実装レベルで異なるため、もう1つの問題は、これらのケースで一般的に使用されるデータセットが、当初マルチモーダル生成モデルの評価のために設計されていなかったことである。
本論文は、どちらの問題にも対処する。
まず,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
第2に,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした合成バイモーダルデータセットを提案する。
最先端モデルを比較することにより,データセットの有用性を実証する。
関連論文リスト
- VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - A tutorial on multi-view autoencoders using the multi-view-AE library [0.0]
マルチビューオートエンコーダのための統一的な数学的枠組みを提案する。
それぞれのモデルのモチベーションと理論的アドバンテージに関する洞察を提供する。
以前導入された textttmulti-view-AE ライブラリのドキュメントと機能を拡張する。
論文 参考訳(メタデータ) (2024-03-12T09:51:05Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal
Contributions in Vision and Language Models & Tasks [20.902155496422417]
視覚と言語モデルは、各モダリティにおける関連情報に焦点をあてるのではなく、個々のモダリティにおける不正な指標を利用する。
MM-SHAPは,シェープリー値に基づく性能非依存のマルチモーダリティスコアである。
論文 参考訳(メタデータ) (2022-12-15T21:41:06Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。