論文の概要: Synthetic Multimodal Question Generation
- arxiv url: http://arxiv.org/abs/2407.02233v2
- Date: Thu, 03 Oct 2024 19:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:28.274831
- Title: Synthetic Multimodal Question Generation
- Title(参考訳): 合成マルチモーダル質問生成
- Authors: Ian Wu, Sravan Jayanthi, Vijay Viswanathan, Simon Rosenberg, Sina Pakazad, Tongshuang Wu, Graham Neubig,
- Abstract要約: MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
- 参考スコア(独自算出の注目度): 60.33494376081317
- License:
- Abstract: Multimodal Retrieval Augmented Generation (MMRAG) is a powerful approach to question-answering over multimodal documents. A key challenge with evaluating MMRAG is the paucity of high-quality datasets matching the question styles and modalities of interest. In light of this, we propose SMMQG, a synthetic data generation framework. SMMQG leverages interplay between a retriever, large language model (LLM) and large multimodal model (LMM) to generate question and answer pairs directly from multimodal documents, with the questions conforming to specified styles and modalities. We use SMMQG to generate an MMRAG dataset of 1024 questions over Wikipedia documents and evaluate state-of-the-art models using it, revealing insights into model performance that are attainable only through style- and modality-specific evaluation data. Next, we measure the quality of data produced by SMMQG via a human study. We find that the quality of SMMQG-generated synthetic data is on par with the quality of the crowdsourced benchmark MMQA and that downstream evaluation results using both datasets strongly concur.
- Abstract(参考訳): MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
MMRAGを評価する上で重要な課題は、質問スタイルと関心のモダリティにマッチする高品質なデータセットの妥当性である。
そこで我々は,合成データ生成フレームワークSMMQGを提案する。
SMMQGは、レトリバー、大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の相互作用を利用して、複数のモーダル文書から直接質問と回答のペアを生成する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いた最先端モデルの評価を行い、スタイルやモダリティ固有の評価データによってのみ達成可能なモデルパフォーマンスに関する洞察を明らかにする。
次に,SMMQGが生成するデータの品質を人間の研究によって測定する。
SMMQG生成データの品質は,クラウドソーシングベンチマークMMQAの品質と同等であり,両データセットを用いた下流評価結果が強く一致していることが判明した。
関連論文リスト
- MDCure: A Scalable Pipeline for Multi-Document Instruction-Following [40.201087646516335]
LLMのMD能力を高めるために,スケーラブルで効果的な微調整パイプラインであるMDCureを導入する。
MDCureは、ターゲティングプロンプトを介して関連記事の集合から高品質な合成MD命令データを生成する。
また、MD設定のためのトレーニングユーティリティに基づいて生成されたデータをフィルタリングする多目的報酬モデルであるMDCureRMを導入する。
論文 参考訳(メタデータ) (2024-10-30T21:08:07Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。