論文の概要: MuG: A Multimodal Classification Benchmark on Game Data with Tabular,
Textual, and Visual Fields
- arxiv url: http://arxiv.org/abs/2302.02978v1
- Date: Mon, 6 Feb 2023 18:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 15:33:48.553408
- Title: MuG: A Multimodal Classification Benchmark on Game Data with Tabular,
Textual, and Visual Fields
- Title(参考訳): MuG: タブラリ,テキスト,ビジュアルフィールドを用いたゲームデータのマルチモーダル分類ベンチマーク
- Authors: Jiaying Lu, Yongchen Qian, Shifan Zhao, Yuanzhe Xi, Carl Yang
- Abstract要約: 本研究では、8つのデータセットを持つマルチモーダルベンチマーク MuG を提案し、研究者がモデルのマルチモーダルパーセプトロン機能をテストする。
これらのデータセットは、テキストと視覚のモダリティをカバーする4つのジャンルのゲームから収集される。
マルチアスペクトデータ分析を行い、ラベルバランス率、欠落特徴率、各モード内のデータの分布、ラベルと入力モダリティの相関など、ベンチマークに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 11.679942470518544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal learning has attracted the interest of the machine learning
community due to its great potential in a variety of applications. To help
achieve this potential, we propose a multimodal benchmark MuG with eight
datasets allowing researchers to test the multimodal perceptron capabilities of
their models. These datasets are collected from four different genres of games
that cover tabular, textual, and visual modalities. We conduct multi-aspect
data analysis to provide insights into the benchmark, including label balance
ratios, percentages of missing features, distributions of data within each
modality, and the correlations between labels and input modalities. We further
present experimental results obtained by several state-of-the-art unimodal
classifiers and multimodal classifiers, which demonstrate the challenging and
multimodal-dependent properties of the benchmark. MuG is released at
https://github.com/lujiaying/MUG-Bench with the data, documents, tutorials, and
implemented baselines. Extensions of MuG are welcomed to facilitate the
progress of research in multimodal learning problems.
- Abstract(参考訳): マルチモーダル学習は、さまざまなアプリケーションにおいて大きな可能性を秘めているため、機械学習コミュニティの関心を集めている。
この可能性を達成するために、8つのデータセットを持つマルチモーダルベンチマーク MuG を提案し、研究者はモデルのマルチモーダルパーセプトロン機能をテストする。
これらのデータセットは、表、テキスト、視覚的モダリティをカバーする4つの異なるジャンルのゲームから収集される。
マルチスペクトルデータ分析を行い,ラベルバランス比,欠落率,各モダリティ内のデータの分布,ラベルと入力モダリティの相関など,ベンチマークに関する洞察を提供する。
さらに,いくつかの最先端のユニモーダル分類器とマルチモーダル分類器によって得られた実験結果を示し,ベンチマークの難易度とマルチモーダル依存性を示す。
MuGはhttps://github.com/lujiaying/MUG-Benchでデータ、ドキュメント、チュートリアル、実装ベースラインとともにリリースされた。
マルチモーダル学習問題の研究の進展を促進するために,mugの拡張が歓迎されている。
関連論文リスト
- StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and
Toolkit [0.0]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。