Fugu-MT 論文翻訳(概要): LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

論文の概要: LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

arxiv url: http://arxiv.org/abs/2406.09864v1
Date: Fri, 14 Jun 2024 09:22:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 14:24:30.120527
Title: LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data
Title（参考訳）: LUMA:不確実性とマルチモーダルデータから学習するためのベンチマークデータセット
Authors: Grigor Bezirganyan, Sana Sellami, Laure Berti-Équille, Sébastien Fournier,
Abstract要約: マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを紹介する。
参考スコア（独自算出の注目度）: 3.66486428341988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Deep Learning enhances decision-making by integrating diverse information sources, such as texts, images, audio, and videos. To develop trustworthy multimodal approaches, it is essential to understand how uncertainty impacts these models. We introduce LUMA, a unique benchmark dataset, featuring audio, image, and textual data from 50 classes, for learning from uncertain and multimodal data. It extends the well-known CIFAR 10/100 dataset with audio samples extracted from three audio corpora, and text data generated using the Gemma-7B Large Language Model (LLM). The LUMA dataset enables the controlled injection of varying types and degrees of uncertainty to achieve and tailor specific experiments and benchmarking initiatives. LUMA is also available as a Python package including the functions for generating multiple variants of the dataset with controlling the diversity of the data, the amount of noise for each modality, and adding out-of-distribution samples. A baseline pre-trained model is also provided alongside three uncertainty quantification methods: Monte-Carlo Dropout, Deep Ensemble, and Reliable Conflictive Multi-View Learning. This comprehensive dataset and its tools are intended to promote and support the development and benchmarking of trustworthy and robust multimodal deep learning approaches.
Abstract（参考訳）: マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを紹介する。有名なCIFAR 10/100データセットを拡張し、3つのオーディオコーパスから抽出された音声サンプルと、Gemma-7B Large Language Model (LLM)を用いて生成されたテキストデータを出力する。 LUMAデータセットは、さまざまなタイプの制御されたインジェクションと不確実性の度合いによって、特定の実験やベンチマークイニシアチブの達成と調整を可能にする。 LUMAはPythonパッケージとしても利用可能で、データの多様性、各モダリティのノイズの量、配布外のサンプルを追加することで、データセットの複数の変種を生成する機能を含んでいる。ベースライン事前学習モデルはモンテカルロ・ドロップアウト、ディープ・アンサンブル、信頼性のあるマルチビュー・ラーニングの3つの不確実性定量化手法と共に提供される。この包括的なデータセットとそのツールは、信頼できる、堅牢なマルチモーダルディープラーニングアプローチの開発とベンチマークの促進とサポートを目的としています。

関連論文リスト

Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文参考訳（メタデータ） (2024-09-30T17:57:50Z)
FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。現在、FedLLMの現実的なデータセットやベンチマークは存在しない。我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文参考訳（メタデータ） (2024-06-07T11:19:30Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。 MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文参考訳（メタデータ） (2023-06-28T17:59:10Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning [8.868945335907867]
本稿では、モーダル間の共有情報を取得するための深いモーダル共有情報学習モジュールを提案する。また、自己教師付き学習戦略に基づくラベル生成モジュールを使用して、モダリティのプライベート情報をキャプチャする。当社のアプローチは,3つの公開データセットの指標のほとんどにおいて,最先端の手法よりも優れています。
論文参考訳（メタデータ） (2023-05-15T09:24:48Z)
Self-Supervised Multimodal Learning: A Survey [23.526389924804207]
マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
論文参考訳（メタデータ） (2023-03-31T16:11:56Z)
Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文参考訳（メタデータ） (2023-03-27T07:07:33Z)
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文参考訳（メタデータ） (2022-02-24T15:12:17Z)
Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文参考訳（メタデータ） (2021-09-03T15:44:15Z)
Evaluation Framework For Large-scale Federated Learning [10.127616622630514]
フェデレーテッド・ラーニングは、携帯電話などの分散型エッジデバイスが協調して共有予測モデルを学習できるようにするための機械学習環境として提案されている。本稿では,データセットとモジュール型評価フレームワークを生成するためのアプローチからなる,大規模フェデレーション学習のためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-03T15:12:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。