論文の概要: MultiBench: Multiscale Benchmarks for Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2107.07502v1
- Date: Thu, 15 Jul 2021 17:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:17:23.418511
- Title: MultiBench: Multiscale Benchmarks for Multimodal Representation Learning
- Title(参考訳): MultiBench:マルチモーダル表現学習のためのマルチスケールベンチマーク
- Authors: Paul Pu Liang, Yiwei Lyu, Xiang Fan, Zetian Wu, Yun Cheng, Jason Wu,
Leslie Chen, Peter Wu, Michelle A. Lee, Yuke Zhu, Ruslan Salakhutdinov,
Louis-Philippe Morency
- Abstract要約: MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
- 参考スコア(独自算出の注目度): 87.23266008930045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning multimodal representations involves integrating information from
multiple heterogeneous sources of data. It is a challenging yet crucial area
with numerous real-world applications in multimedia, affective computing,
robotics, finance, human-computer interaction, and healthcare. Unfortunately,
multimodal research has seen limited resources to study (1) generalization
across domains and modalities, (2) complexity during training and inference,
and (3) robustness to noisy and missing modalities. In order to accelerate
progress towards understudied modalities and tasks while ensuring real-world
robustness, we release MultiBench, a systematic and unified large-scale
benchmark spanning 15 datasets, 10 modalities, 20 prediction tasks, and 6
research areas. MultiBench provides an automated end-to-end machine learning
pipeline that simplifies and standardizes data loading, experimental setup, and
model evaluation. To enable holistic evaluation, MultiBench offers a
comprehensive methodology to assess (1) generalization, (2) time and space
complexity, and (3) modality robustness. MultiBench introduces impactful
challenges for future research, including scalability to large-scale multimodal
datasets and robustness to realistic imperfections. To accompany this
benchmark, we also provide a standardized implementation of 20 core approaches
in multimodal learning. Simply applying methods proposed in different research
areas can improve the state-of-the-art performance on 9/15 datasets. Therefore,
MultiBench presents a milestone in unifying disjoint efforts in multimodal
research and paves the way towards a better understanding of the capabilities
and limitations of multimodal models, all the while ensuring ease of use,
accessibility, and reproducibility. MultiBench, our standardized code, and
leaderboards are publicly available, will be regularly updated, and welcomes
inputs from the community.
- Abstract(参考訳): マルチモーダル表現の学習には、複数の異種データソースからの情報を統合することが含まれる。
マルチメディア、感情コンピューティング、ロボティクス、ファイナンス、人間とコンピュータのインタラクション、ヘルスケアなど、多くの現実世界の応用がある、困難な領域である。
残念なことに、マルチモーダル研究は、(1)ドメインとモダリティの一般化、(2)トレーニングと推論の複雑さ、(3)ノイズと不足モダリティに対する堅牢性を研究するための限られた資源を見出している。
実世界のロバスト性を確保しつつ、未調査のモダリティやタスクの進歩を加速するために、15のデータセット、10のモダリティ、20の予測タスク、および6つの研究領域にまたがる、体系的で統一された大規模ベンチマークであるMultiBenchをリリースする。
MultiBenchは、データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
総合的な評価を可能にするため、MultiBenchは(1)一般化、(2)時間と空間の複雑さ、(3)モダリティの堅牢性を評価する包括的な方法論を提供する。
MultiBenchは、大規模マルチモーダルデータセットへのスケーラビリティや、現実的な不完全性に対する堅牢性など、将来の研究におけるインパクトのある課題を紹介している。
このベンチマークに合わせて,マルチモーダル学習における20コアアプローチの標準化実装も提供する。
異なる研究領域で提案されている手法を単純に適用すれば、9/15のデータセットにおける最先端のパフォーマンスが向上する。
したがって、マルチベンチはマルチモーダル研究における非協力的な取り組みを統一するマイルストーンを示し、マルチモーダルモデルの能力と限界をよりよく理解し、使いやすさ、アクセシビリティ、再現性を確保しながら、その道を開く。
標準化されたコードであるMultiBenchとリーダボードは、定期的に更新され、コミュニティからのインプットを歓迎します。
関連論文リスト
- Multimodal Alignment and Fusion: A Survey [7.250878248686215]
マルチモーダル統合により、モデルの精度と適用性が改善される。
我々は既存のアライメントと融合の手法を体系的に分類し分析する。
この調査は、ソーシャルメディア分析、医療画像、感情認識といった分野の応用に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-26T02:10:27Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。