論文の概要: Towards Efficient and Robust VQA-NLE Data Generation with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.14785v1
- Date: Mon, 23 Sep 2024 07:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:01:15.850822
- Title: Towards Efficient and Robust VQA-NLE Data Generation with Large Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた高効率かつロバストなVQA-NLEデータ生成に向けて
- Authors: Patrick Amadeus Irawan, Genta Indra Winata, Samuel Cahyawijaya, Ayu Purwarianti,
- Abstract要約: 自然言語解説(NLE)は、自然言語の詳細な人間フレンドリーな説明を提供することで、意思決定プロセスの解明を目的としている。
自然言語説明データセットを用いた視覚質問応答作成のための既存の手法は、人間のアノテーションに依存している。
本稿では,LVLMを用いて高品質な合成VQA-NLEデータセットを効率的に生成する手法を提案する。
- 参考スコア(独自算出の注目度): 26.094144160398447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Explanation (NLE) aims to elucidate the decision-making process by providing detailed, human-friendly explanations in natural language. It helps demystify the decision-making processes of large vision-language models (LVLMs) through the use of language models. While existing methods for creating a Vision Question-Answering with Natural Language Explanation (VQA-NLE) datasets can provide explanations, they heavily rely on human annotations that are time-consuming and costly. In this study, we propose a novel approach that leverages LVLMs to efficiently generate high-quality synthetic VQA-NLE datasets. By evaluating our synthetic data, we showcase how advanced prompting techniques can lead to the production of high-quality VQA-NLE data. Our findings indicate that this proposed method achieves up to 20x faster than human annotation, with only a minimal decrease in qualitative metrics, achieving robust quality that is nearly equivalent to human-annotated data. Furthermore, we show that incorporating visual prompts significantly enhances the relevance of text generation. Our study paves the way for a more efficient and robust automated generation of multi-modal NLE data, offering a promising solution to the problem.
- Abstract(参考訳): 自然言語解説(NLE)は、自然言語の詳細な人間フレンドリーな説明を提供することで、意思決定プロセスの解明を目的としている。
言語モデルを使用することで、大きな視覚言語モデル(LVLM)の意思決定プロセスのデミスティフィケーションを支援する。
Vision Question-Answering with Natural Language Explanation (VQA-NLE)データセットを作成する既存の方法は説明を提供することができるが、時間と費用のかかる人間のアノテーションに強く依存している。
本研究では,LVLMを用いて高品質な合成VQA-NLEデータセットを効率的に生成する手法を提案する。
我々の合成データを評価することにより、高品質なVQA-NLEデータの生成に先進的なプロンプト技術がいかに寄与するかを示す。
提案手法は,人間のアノテーションよりも最大20倍高速で,定性的指標の減少が最小限であり,人間の注釈データとほぼ同等な堅牢な品質を実現することが示唆された。
さらに、視覚的なプロンプトを取り入れることで、テキスト生成の関連性を大幅に向上することを示す。
我々の研究は、より効率的で堅牢なマルチモーダルNLEデータの自動生成の道を開き、この問題に対する有望な解決策を提供する。
関連論文リスト
- Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation [1.0173628293062005]
大規模言語モデル(LLM)は、様々な複雑な言語タスクに適用されている。
本稿では,ベトナムのファクトチェックタスクにおけるLPMを用いた自動データ生成について検討する。
簡単なプロンプト技術を用いて自動データ構築プロセスを開発し、生成したデータの品質を改善するためにいくつかの手法を探索する。
論文 参考訳(メタデータ) (2024-11-08T15:35:43Z) - Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。
提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。
その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文 参考訳(メタデータ) (2024-09-19T09:24:36Z) - A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。