論文の概要: Training Multimedia Event Extraction With Generated Images and Captions
- arxiv url: http://arxiv.org/abs/2306.08966v1
- Date: Thu, 15 Jun 2023 09:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:34:12.737509
- Title: Training Multimedia Event Extraction With Generated Images and Captions
- Title(参考訳): 生成画像とキャプションを用いたマルチメディアイベント抽出の訓練
- Authors: Zilin Du, Yunxin Li, Xu Guo, Yidan Sun, Boyang Li
- Abstract要約: CAMEL(Cross-modality Augmented Multimedia Event Learning)を提案する。
我々は,Stable DiffusionやBLIPなどの画像キャプタなどの市販画像生成装置を用いて,マルチモーダルトレーニングデータを生成する。
実験では、CAMELはM2E2ベンチマークの最先端(SOTA)ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 6.291564630983316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary news reporting increasingly features multimedia content,
motivating research on multimedia event extraction. However, the task lacks
annotated multimodal training data and artificially generated training data
suffer from the distribution shift from the real-world data. In this paper, we
propose Cross-modality Augmented Multimedia Event Learning (CAMEL), which
successfully utilizes artificially generated multimodal training data and
achieves state-of-the-art performance. Conditioned on unimodal training data,
we generate multimodal training data using off-the-shelf image generators like
Stable Diffusion and image captioners like BLIP. In order to learn robust
features that are effective across domains, we devise an iterative and gradual
annealing training strategy. Substantial experiments show that CAMEL surpasses
state-of-the-art (SOTA) baselines on the M2E2 benchmark. On multimedia events
in particular, we outperform the prior SOTA by 4.2\% F1 on event mention
identification and by 9.8\% F1 on argument identification, which demonstrates
that CAMEL learns synergistic representations from the two modalities.
- Abstract(参考訳): 現代のニュースは、マルチメディアコンテンツがますます多くなり、マルチメディアイベント抽出の研究を動機付けている。
しかしながら、タスクには注釈付きマルチモーダルトレーニングデータや、実世界データからの分散シフトに苦しむ人工的なトレーニングデータが欠落している。
本稿では、人工的に生成されたマルチモーダルトレーニングデータをうまく活用し、最先端のパフォーマンスを実現するクロスモーダル拡張マルチメディアイベント学習(CAMEL)を提案する。
ユニモーダルトレーニングデータに基づいて,安定拡散のような既定画像生成器とblipのような画像キャプションを用いたマルチモーダルトレーニングデータを生成する。
ドメイン間で有効である堅牢な特徴を学習するために、反復的かつ段階的なアニールトレーニング戦略を考案する。
実質的な実験により、CAMELはM2E2ベンチマークの最先端(SOTA)ベースラインを超えている。
特にマルチメディアイベントでは、イベント参照識別では4.2\% F1で、引数識別では9.8\% F1で、CAMELが2つのモードから相乗表現を学習していることを示す。
関連論文リスト
- MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。