論文の概要: FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering
- arxiv url: http://arxiv.org/abs/2412.07030v4
- Date: Thu, 03 Apr 2025 22:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:46:52.163749
- Title: FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering
- Title(参考訳): FM2DS:知識蒸留による質問応答用マルチモーダルマルチホップデータ合成
- Authors: Amirhossein Abaskohi, Spandana Gella, Giuseppe Carenini, Issam H. Laradji,
- Abstract要約: マルチモーダルなマルチホップ質問応答 (MMQA) には、複数のソースからの画像やテキストを推論する必要がある。
既存の方法は、シングルホップ、シングルモダリティ、短いテキストに焦点を当てている。
MMQAのための高品質なデータセットを作成するための最初のフレームワークであるFM2DSを紹介します。
- 参考スコア(独自算出の注目度): 21.545569307511183
- License:
- Abstract: Multimodal multihop question answering (MMQA) requires reasoning over images and text from multiple sources. Despite advances in visual question answering, this multihop setting remains underexplored due to a lack of quality datasets. Existing methods focus on single-hop, single-modality, or short texts, limiting real-world applications like interpreting educational documents with long, multimodal content. To fill this gap, we introduce FM2DS, the first framework for creating a high-quality dataset for MMQA. Our approach consists of a 5-stage pipeline that involves acquiring relevant multimodal documents from Wikipedia, synthetically generating high-level questions and answers, and validating them through rigorous criteria to ensure data quality. We evaluate our methodology by training models on our synthesized dataset and testing on two benchmarks: MultimodalQA and WebQA. Our results demonstrate that, with an equal sample size, models trained on our synthesized data outperform those trained on human-collected data by 1.9 in exact match (EM) score on average. Additionally, we introduce M2QA-Bench with 1k samples, the first benchmark for MMQA on long documents, generated using FM2DS and refined by human annotators. We believe our data synthesis method will serve as a strong foundation for training and evaluating MMQA models.
- Abstract(参考訳): マルチモーダルなマルチホップ質問応答 (MMQA) には、複数のソースからの画像やテキストを推論する必要がある。
視覚的な質問応答の進歩にもかかわらず、このマルチホップ設定は、品質データセットが不足しているため、まだ探索されていない。
既存の方法はシングルホップ、シングルモダリティ、ショートテキストに重点を置いており、長いマルチモーダルコンテンツで教育文書を解釈するような現実世界のアプリケーションを制限する。
このギャップを埋めるために、MMQAのための高品質なデータセットを作成するための最初のフレームワークであるFM2DSを紹介します。
当社のアプローチは,Wikipediaから関連するマルチモーダル文書を取得し,高レベルな質問や回答を合成的に生成し,厳格な基準で検証し,データ品質を保証する5段階のパイプラインで構成されている。
合成データセットのモデルをトレーニングし、2つのベンチマーク(MultimodalQAとWebQA)でテストすることで方法論を評価する。
その結果、サンプルサイズが同じであれば、合成データに基づいてトレーニングしたモデルは、平均して1.9の正確な一致(EM)スコアで、人間の収集データでトレーニングしたモデルよりも優れていることがわかった。
さらに,M2QA-Benchを1kサンプルで導入し,FM2DSを用いて生成し,人間のアノテータによって改良した長文書上でのMMQAの最初のベンチマークを行った。
我々のデータ合成手法は、MMQAモデルのトレーニングと評価のための強力な基盤となると信じています。
関連論文リスト
- mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - How Well Do Multi-hop Reading Comprehension Models Understand Date
Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文 参考訳(メタデータ) (2022-10-11T07:24:07Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。
WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。