論文の概要: MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning
- arxiv url: http://arxiv.org/abs/2306.16413v1
- Date: Wed, 28 Jun 2023 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 13:17:52.506303
- Title: MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning
- Title(参考訳): MultiZoo & MultiBench: マルチモーダルディープラーニングのための標準ツールキット
- Authors: Paul Pu Liang, Yiwei Lyu, Xiang Fan, Arav Agarwal, Yun Cheng,
Louis-Philippe Morency, Ruslan Salakhutdinov
- Abstract要約: MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
- 参考スコア(独自算出の注目度): 110.54752872873472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning multimodal representations involves integrating information from
multiple heterogeneous sources of data. In order to accelerate progress towards
understudied modalities and tasks while ensuring real-world robustness, we
release MultiZoo, a public toolkit consisting of standardized implementations
of > 20 core multimodal algorithms and MultiBench, a large-scale benchmark
spanning 15 datasets, 10 modalities, 20 prediction tasks, and 6 research areas.
Together, these provide an automated end-to-end machine learning pipeline that
simplifies and standardizes data loading, experimental setup, and model
evaluation. To enable holistic evaluation, we offer a comprehensive methodology
to assess (1) generalization, (2) time and space complexity, and (3) modality
robustness. MultiBench paves the way towards a better understanding of the
capabilities and limitations of multimodal models, while ensuring ease of use,
accessibility, and reproducibility. Our toolkits are publicly available, will
be regularly updated, and welcome inputs from the community.
- Abstract(参考訳): マルチモーダル表現の学習には、複数の異種データソースからの情報を統合することが含まれる。
実世界のロバスト性を確保しつつ、未調査のモダリティやタスクの進歩を加速するため、20以上のコアマルチモーダルアルゴリズムと15のデータセット、10のモダリティ、20の予測タスク、および6つの研究領域にまたがる大規模ベンチマークであるMultiBenchを実装した公開ツールキットであるMultiZooをリリースする。
これらを合わせて、データローディングや実験的なセットアップ、モデル評価の簡略化と標準化を行う、エンドツーエンドのマシンラーニングパイプラインが提供される。
本研究では,(1)一般化,(2)時間と空間の複雑さ,(3)モダリティの堅牢性を評価するための包括的方法論を提案する。
マルチベンチは、使いやすさ、アクセシビリティ、再現性を確保しつつ、マルチモーダルモデルの能力と制限をよりよく理解するための道を開く。
私たちのツールキットは公開され、定期的に更新され、コミュニティからのインプットを歓迎します。
関連論文リスト
- VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis [18.084628500554462]
SINGA-Easyは、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークである。
マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。
論文 参考訳(メタデータ) (2021-08-03T08:39:54Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。