論文の概要: SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2406.19593v1
- Date: Fri, 28 Jun 2024 01:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:10:10.133187
- Title: SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs
- Title(参考訳): SK-VQA: 文脈拡張型マルチモーダルLLMの学習のための大規模合成知識生成
- Authors: Xin Su, Man Luo, Kris W Pan, Tien Pei Chou, Vasudev Lal, Phillip Howard,
- Abstract要約: SK-VQAは200万以上の質問応答対を含む大規模な合成マルチモーダルデータセットである。
我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張世代に適用する上でも非常に効果的であることを示す。
- 参考スコア(独自算出の注目度): 6.879945062426145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation has gained significant attention recently for its utility in training large vision and language models. However, the application of synthetic data to the training of multimodal context-augmented generation systems has been relatively unexplored. This gap in existing work is important because existing vision and language models (VLMs) are not trained specifically for context-augmented generation. Resources for adapting such models are therefore crucial for enabling their use in retrieval-augmented generation (RAG) settings, where a retriever is used to gather relevant information that is then subsequently provided to a generative model via context augmentation. To address this challenging problem, we generate SK-VQA: a large synthetic multimodal dataset containing over 2 million question-answer pairs which require external knowledge to determine the final answer. Our dataset is both larger and significantly more diverse than existing resources of its kind, possessing over 11x more unique questions and containing images from a greater variety of sources than previously-proposed datasets. Through extensive experiments, we demonstrate that our synthetic dataset can not only serve as a challenging benchmark, but is also highly effective for adapting existing generative multimodal models for context-augmented generation.
- Abstract(参考訳): 合成データ生成は、近年、大規模ビジョンと言語モデルのトレーニングにおける実用性において大きな注目を集めている。
しかし、合成データのマルチモーダルな文脈拡張生成システムの訓練への応用は、比較的研究されていない。
既存の視覚と言語モデル(VLM)は、文脈拡張生成のために特別に訓練されていないため、既存の作業におけるこのギャップは重要である。
このようなモデルに適応するためのリソースは、検索強化生成(RAG)設定での使用を可能にするために不可欠である。
この課題に対処するために、我々はSK-VQAを生成する: 最終回答を決定するために外部知識を必要とする200万以上の質問応答対を含む大規模な合成マルチモーダルデータセット。
我々のデータセットは、その種類の既存のリソースよりも大きく、非常に多様であり、11倍以上のユニークな質問を持ち、以前提案されたデータセットよりも多種多様なソースの画像を含んでいる。
大規模な実験を通じて、我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張生成に適用する上でも非常に効果的であることを示した。
関連論文リスト
- Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review [1.8590097948961688]
LLM(Large Language Models)のような生成AIは、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。
このデータを効率的に管理することは、データ量が2倍にならないため、業界倍の課題となっている。
本研究では,モノモーダル,マルチモーダル,クロスモーダルデータから埋め込みを抽出するセマンティック・アウェア技術に着目した。
論文 参考訳(メタデータ) (2024-07-17T09:49:11Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。