論文の概要: Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data
- arxiv url: http://arxiv.org/abs/2412.16243v1
- Date: Thu, 19 Dec 2024 20:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:15.483160
- Title: Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data
- Title(参考訳): 画像, テキスト, タブラルデータを用いたマルチモーダルオートMLのためのトリックのバグ
- Authors: Zhiqiang Tang, Zihan Zhong, Tong He, Gerald Friedland,
- Abstract要約: 本稿では,自動機械学習(AutoML)のベストプラクティスについて検討する。
実世界の様々なアプリケーションから22のマルチモーダルデータセットからなるベンチマークをキュレートする。
大規模な実験と分析を通じて、有効な戦略のコレクションを蒸留し、それらを統一されたパイプラインに統合する。
- 参考スコア(独自算出の注目度): 9.325441307607225
- License:
- Abstract: This paper studies the best practices for automatic machine learning (AutoML). While previous AutoML efforts have predominantly focused on unimodal data, the multimodal aspect remains under-explored. Our study delves into classification and regression problems involving flexible combinations of image, text, and tabular data. We curate a benchmark comprising 22 multimodal datasets from diverse real-world applications, encompassing all 4 combinations of the 3 modalities. Across this benchmark, we scrutinize design choices related to multimodal fusion strategies, multimodal data augmentation, converting tabular data into text, cross-modal alignment, and handling missing modalities. Through extensive experimentation and analysis, we distill a collection of effective strategies and consolidate them into a unified pipeline, achieving robust performance on diverse datasets.
- Abstract(参考訳): 本稿では,自動機械学習(AutoML)のベストプラクティスについて考察する。
これまでのAutoMLの取り組みは、主にユニモーダルデータに重点を置いていたが、マルチモーダルの側面はいまだに探索されていない。
本研究は,画像,テキスト,表データのフレキシブルな組み合わせを含む分類問題と回帰問題について検討する。
実世界の様々なアプリケーションから22のマルチモーダルデータセットからなるベンチマークをキュレートし、3つのモダリティの合計4つの組み合わせを網羅した。
本ベンチマークでは,マルチモーダルフュージョン戦略,マルチモーダルデータ拡張,表データのテキスト化,クロスモーダルアライメント,欠落したモダリティ処理に関する設計選択を精査する。
大規模な実験と分析を通じて、有効な戦略のコレクションを蒸留し、それらを統一パイプラインに統合し、多様なデータセット上で堅牢なパフォーマンスを達成する。
関連論文リスト
- mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - MRAMG-Bench: A BeyondText Benchmark for Multimodal Retrieval-Augmented Multimodal Generation [19.745059794932807]
本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。
このタスクは、コーパス内のマルチモーダルデータを完全に活用して、テキストと画像の両方を組み合わせた回答を生成することを目的としている。
MRAMG-Benchは,統計およびLLMに基づくメトリクスの包括的スイートである。
論文 参考訳(メタデータ) (2025-02-06T16:07:24Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for
Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。
具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。
また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文 参考訳(メタデータ) (2022-04-12T04:03:06Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。