Fugu-MT 論文翻訳(概要): MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields

論文の概要: MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields

arxiv url: http://arxiv.org/abs/2302.02978v1
Date: Mon, 6 Feb 2023 18:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 15:33:48.553408
Title: MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields
Title（参考訳）: MuG: タブラリ,テキスト,ビジュアルフィールドを用いたゲームデータのマルチモーダル分類ベンチマーク
Authors: Jiaying Lu, Yongchen Qian, Shifan Zhao, Yuanzhe Xi, Carl Yang
Abstract要約: 本研究では、8つのデータセットを持つマルチモーダルベンチマーク MuG を提案し、研究者がモデルのマルチモーダルパーセプトロン機能をテストする。これらのデータセットは、テキストと視覚のモダリティをカバーする4つのジャンルのゲームから収集される。マルチアスペクトデータ分析を行い、ラベルバランス率、欠落特徴率、各モード内のデータの分布、ラベルと入力モダリティの相関など、ベンチマークに関する洞察を提供する。
参考スコア（独自算出の注目度）: 11.679942470518544
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal learning has attracted the interest of the machine learning community due to its great potential in a variety of applications. To help achieve this potential, we propose a multimodal benchmark MuG with eight datasets allowing researchers to test the multimodal perceptron capabilities of their models. These datasets are collected from four different genres of games that cover tabular, textual, and visual modalities. We conduct multi-aspect data analysis to provide insights into the benchmark, including label balance ratios, percentages of missing features, distributions of data within each modality, and the correlations between labels and input modalities. We further present experimental results obtained by several state-of-the-art unimodal classifiers and multimodal classifiers, which demonstrate the challenging and multimodal-dependent properties of the benchmark. MuG is released at https://github.com/lujiaying/MUG-Bench with the data, documents, tutorials, and implemented baselines. Extensions of MuG are welcomed to facilitate the progress of research in multimodal learning problems.
Abstract（参考訳）: マルチモーダル学習は、さまざまなアプリケーションにおいて大きな可能性を秘めているため、機械学習コミュニティの関心を集めている。この可能性を達成するために、8つのデータセットを持つマルチモーダルベンチマーク MuG を提案し、研究者はモデルのマルチモーダルパーセプトロン機能をテストする。これらのデータセットは、表、テキスト、視覚的モダリティをカバーする4つの異なるジャンルのゲームから収集される。マルチスペクトルデータ分析を行い,ラベルバランス比,欠落率,各モダリティ内のデータの分布,ラベルと入力モダリティの相関など,ベンチマークに関する洞察を提供する。さらに,いくつかの最先端のユニモーダル分類器とマルチモーダル分類器によって得られた実験結果を示し,ベンチマークの難易度とマルチモーダル依存性を示す。 MuGはhttps://github.com/lujiaying/MUG-Benchでデータ、ドキュメント、チュートリアル、実装ベースラインとともにリリースされた。マルチモーダル学習問題の研究の進展を促進するために,mugの拡張が歓迎されている。

関連論文リスト

MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文参考訳（メタデータ） (2025-03-04T13:12:39Z)
When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning [36.6581535146878]
マルチモーダル属性グラフ(MAG)は、様々な現実世界のシナリオで一般的であり、一般的に2種類の知識を含んでいる。プレトレーニング言語/視覚モデル(PLM/PVM)とグラフニューラルネットワーク(GNN)の最近の進歩は、MAGの効果的な学習を促進する。本稿では、MAGのベンチマークデータセットの総合的かつ多種多様なコレクションであるMultimodal Attribute Graph Benchmark(MAGB)を提案する。
論文参考訳（メタデータ） (2024-10-11T13:24:57Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。既存のパブリックMSMOデータセットには多くの制限がある。 textbfMMSumデータセットを精巧にキュレートした。
論文参考訳（メタデータ） (2023-06-07T07:43:11Z)
Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文参考訳（メタデータ） (2023-03-27T07:07:33Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。この地域の既存の研究は、大規模に監督されたデータに大きく依存している。マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文参考訳（メタデータ） (2022-11-12T08:10:35Z)
Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文参考訳（メタデータ） (2022-09-07T10:26:28Z)
Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文参考訳（メタデータ） (2021-10-27T12:19:56Z)
The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset: Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文参考訳（メタデータ） (2021-01-15T10:40:37Z)
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文参考訳（メタデータ） (2020-12-16T19:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。