Fugu-MT 論文翻訳(概要): Synthetic Multimodal Question Generation

論文の概要: Synthetic Multimodal Question Generation

arxiv url: http://arxiv.org/abs/2407.02233v2
Date: Thu, 03 Oct 2024 19:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 03:47:09.143379
Title: Synthetic Multimodal Question Generation
Title（参考訳）: 合成マルチモーダル質問生成
Authors: Ian Wu, Sravan Jayanthi, Vijay Viswanathan, Simon Rosenberg, Sina Pakazad, Tongshuang Wu, Graham Neubig,
Abstract要約: MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。 SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
参考スコア（独自算出の注目度）: 60.33494376081317
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multimodal Retrieval Augmented Generation (MMRAG) is a powerful approach to question-answering over multimodal documents. A key challenge with evaluating MMRAG is the paucity of high-quality datasets matching the question styles and modalities of interest. In light of this, we propose SMMQG, a synthetic data generation framework. SMMQG leverages interplay between a retriever, large language model (LLM) and large multimodal model (LMM) to generate question and answer pairs directly from multimodal documents, with the questions conforming to specified styles and modalities. We use SMMQG to generate an MMRAG dataset of 1024 questions over Wikipedia documents and evaluate state-of-the-art models using it, revealing insights into model performance that are attainable only through style- and modality-specific evaluation data. Next, we measure the quality of data produced by SMMQG via a human study. We find that the quality of SMMQG-generated synthetic data is on par with the quality of the crowdsourced benchmark MMQA and that downstream evaluation results using both datasets strongly concur.
Abstract（参考訳）: MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。 MMRAGを評価する上で重要な課題は、質問スタイルと関心のモダリティにマッチする高品質なデータセットの妥当性である。そこで我々は,合成データ生成フレームワークSMMQGを提案する。 SMMQGは、レトリバー、大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の相互作用を利用して、複数のモーダル文書から直接質問と回答のペアを生成する。 SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いた最先端モデルの評価を行い、スタイルやモダリティ固有の評価データによってのみ達成可能なモデルパフォーマンスに関する洞察を明らかにする。次に,SMMQGが生成するデータの品質を人間の研究によって測定する。 SMMQG生成データの品質は,クラウドソーシングベンチマークMMQAの品質と同等であり,両データセットを用いた下流評価結果が強く一致していることが判明した。

関連論文リスト

Learning from Reasoning Failures via Synthetic Data Generation [5.893928870271388]
本稿では,既存のLMMの推論失敗の分析に基づく合成データ生成手法を提案する。 553k以上のサンプルを含む大規模なマルチモーダル命令チューニングデータセットを生成する。以上の結果から,我々の合成データに基づいてトレーニングしたモデルが,等価量の実データに基づいてトレーニングしたLMMの性能を上回ることが示唆された。
論文参考訳（メタデータ） (2025-04-20T07:45:53Z)
MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2025-04-14T10:19:47Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering [21.545569307511183]
マルチモーダルなマルチホップ質問応答 (MMQA) には、複数のソースからの画像やテキストを推論する必要がある。既存の方法は、シングルホップ、シングルモダリティ、短いテキストに焦点を当てている。 MMQAのための高品質なデータセットを作成するための最初のフレームワークであるFM2DSを紹介します。
論文参考訳（メタデータ） (2024-12-09T22:35:44Z)
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。 LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文参考訳（メタデータ） (2024-10-13T05:26:36Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T17:58:45Z)
LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。我々は最先端の要約モデルを用いてベースラインを確立する。複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-22T14:53:45Z)
Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文参考訳（メタデータ） (2022-12-16T18:12:04Z)
Data Augmentation for Abstractive Query-Focused Multi-Document Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文参考訳（メタデータ） (2021-03-02T16:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。