論文の概要: AQUALLM: Audio Question Answering Data Generation Using Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.17343v1
- Date: Thu, 28 Dec 2023 20:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:51:20.773540
- Title: AQUALLM: Audio Question Answering Data Generation Using Large Language
Models
- Title(参考訳): AQUALLM:大規模言語モデルを用いた音声質問応答データ生成
- Authors: Swarup Ranjan Behera, Krishna Mohan Injeti, Jaya Sai Kiran Patibandla,
Praveen Kumar Pokala, and Balakrishna Reddy Pailla
- Abstract要約: 大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
- 参考スコア(独自算出の注目度): 2.2232550112727267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio Question Answering (AQA) constitutes a pivotal task in which machines
analyze both audio signals and natural language questions to produce precise
natural language answers. The significance of possessing high-quality, diverse,
and extensive AQA datasets cannot be overstated when aiming for the precision
of an AQA system. While there has been notable focus on developing accurate and
efficient AQA models, the creation of high-quality, diverse, and extensive
datasets for the specific task at hand has not garnered considerable attention.
To address this challenge, this work makes several contributions. We introduce
a scalable AQA data generation pipeline, denoted as the AQUALLM framework,
which relies on Large Language Models (LLMs). This framework utilizes existing
audio-caption annotations and incorporates state-of-the-art LLMs to generate
expansive, high-quality AQA datasets. Additionally, we present three extensive
and high-quality benchmark datasets for AQA, contributing significantly to the
progression of AQA research. AQA models trained on the proposed datasets set
superior benchmarks compared to the existing state-of-the-art. Moreover, models
trained on our datasets demonstrate enhanced generalizability when compared to
models trained using human-annotated AQA data. Code and datasets will be
accessible on GitHub~\footnote{\url{https://github.com/swarupbehera/AQUALLM}}.
- Abstract(参考訳): 音声質問応答(aqa)は、機械が音声信号と自然言語質問の両方を分析し、正確な自然言語応答を生成する重要なタスクである。
高品質で多様で広範なAQAデータセットを持つことの重要性は、AQAシステムの精度を目指しても過大評価できない。
正確で効率的なAQAモデルの開発に注目が集まっているが、特定のタスクのための高品質で多様で広範なデータセットの作成は、大きな注目を集めていない。
この課題に対処するため、この研究にはいくつかの貢献がある。
本稿では,大規模言語モデル(LLM)に依存するAQUALLMフレームワークとして,スケーラブルなAQAデータ生成パイプラインを提案する。
このフレームワークは既存のオーディオキャプチャアノテーションを利用し、最先端のLCMを組み込んで、拡張可能な高品質のAQAデータセットを生成する。
さらに、AQA研究の進展に大きく貢献する、AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
提案したデータセットに基づいてトレーニングされたAQAモデルは、既存の最先端モデルと比較して優れたベンチマークを設定した。
さらに、データセットでトレーニングされたモデルでは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、一般化性が向上した。
コードとデータセットはgithub~\footnote{\url{https://github.com/swarupbehera/aquallm}}でアクセスできる。
関連論文リスト
- ATTIQA: Generalizable Image Quality Feature Extractor using Attribute-aware Pretraining [25.680035174334886]
no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
本稿では,高品質な知識を選択的に抽出し,IQAの一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-03T06:03:57Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文 参考訳(メタデータ) (2021-11-10T12:33:18Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。