論文の概要: Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction
- arxiv url: http://arxiv.org/abs/2312.03025v1
- Date: Tue, 5 Dec 2023 08:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:27:14.706170
- Title: Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction
- Title(参考訳): マルチモーダル関係抽出における実データを打ち負かす合成データの学習
- Authors: Zilin Du, Haoxin Li, Xu Guo, Boyang Li
- Abstract要約: 本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 8.038421100401132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of multimodal relation extraction has attracted significant research
attention, but progress is constrained by the scarcity of available training
data. One natural thought is to extend existing datasets with cross-modal
generative models. In this paper, we consider a novel problem setting, where
only unimodal data, either text or image, are available during training. We aim
to train a multimodal classifier from synthetic data that perform well on real
multimodal test data. However, training with synthetic data suffers from two
obstacles: lack of data diversity and label information loss. To alleviate the
issues, we propose Mutual Information-aware Multimodal Iterated Relational dAta
GEneration (MI2RAGE), which applies Chained Cross-modal Generation (CCG) to
promote diversity in the generated data and exploits a teacher network to
select valuable training samples with high mutual information with the
ground-truth labels. Comparing our method to direct training on synthetic data,
we observed a significant improvement of 24.06% F1 with synthetic text and
26.42% F1 with synthetic images. Notably, our best model trained on completely
synthetic images outperforms prior state-of-the-art models trained on real
multimodal data by a margin of 3.76% in F1. Our codebase will be made available
upon acceptance.
- Abstract(参考訳): マルチモーダルな関係抽出のタスクは、重要な研究の注目を集めているが、進歩は利用可能なトレーニングデータの不足によって制約されている。
自然な考え方のひとつは、既存のデータセットをクロスモーダル生成モデルで拡張することです。
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上でよく動作する合成データから,マルチモーダル分類器を訓練することを目指している。
しかし、合成データによるトレーニングには、データの多様性の欠如とラベル情報損失の2つの障害がある。
そこで,本稿では,相互情報認識型マルチモーダル・リレーショナル・データ生成 (mi2rage) を提案する。これは連鎖型クロスモーダル・ジェネレーション (ccg) を適用し,生成データの多様性を促進するとともに,教師ネットワークを利用して,接地ラベルと高い相互情報を持つ貴重なトレーニングサンプルを選択する。
本手法を合成データの直接学習と比較し,合成テキストによる24.06%f1,合成画像を用いた26.42%f1の有意な改善を認めた。
特に、完全合成画像で訓練された最良のモデルは、実際のマルチモーダルデータで訓練された最先端モデルよりも、F1のマージンが3.76%向上した。
私たちのコードベースは受け入れ次第利用可能になります。
関連論文リスト
- Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。
多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs [13.684959490938269]
本稿では,2つのモデルに依存しないデータ選択手法を用いて,実世界のマルチモーダル誤情報を検出するための合成データからの学習を提案する。
実世界のファクトチェックデータセット上でのMLLMの性能を向上させる実験を行った。
論文 参考訳(メタデータ) (2024-09-29T11:01:14Z) - SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Training Multimedia Event Extraction With Generated Images and Captions [6.291564630983316]
CAMEL(Cross-modality Augmented Multimedia Event Learning)を提案する。
まず、テキストと画像のラベル付きユニモーダルデータセットから始め、Stable Diffusionのようなオフザシェルフ画像生成器とBLIPのようなイメージキャプタを使って、欠落したモダリティを生成する。
ドメイン間で有効な堅牢な機能を学ぶために、反復的かつ段階的なトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-06-15T09:01:33Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。