論文の概要: SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs
- arxiv url: http://arxiv.org/abs/2505.19163v1
- Date: Sun, 25 May 2025 14:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.943817
- Title: SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs
- Title(参考訳): SpokenNativQA: LLM用のマルチ言語毎日のスポットクエリ
- Authors: Firoj Alam, Md Arid Hasan, Shammur Absar Chowdhury,
- Abstract要約: SpokenNativQAは、最初の多言語および文化的に整列された音声質問応答データセットである。
データセットは、複数の言語で約33,000の自然に話される質問と回答から構成される。
- 参考スコア(独自算出の注目度): 12.60449414234283
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across various disciplines and tasks. However, benchmarking their capabilities with multilingual spoken queries remains largely unexplored. In this study, we introduce SpokenNativQA, the first multilingual and culturally aligned spoken question-answering (SQA) dataset designed to evaluate LLMs in real-world conversational settings. The dataset comprises approximately 33,000 naturally spoken questions and answers in multiple languages, including low-resource and dialect-rich languages, providing a robust benchmark for assessing LLM performance in speech-based interactions. SpokenNativQA addresses the limitations of text-based QA datasets by incorporating speech variability, accents, and linguistic diversity. We benchmark different ASR systems and LLMs for SQA and present our findings. We released the data at (https://huggingface.co/datasets/QCRI/SpokenNativQA) and the experimental scripts at (https://llmebench.qcri.org/) for the research community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野やタスクで顕著なパフォーマンスを示している。
しかし、多言語音声クエリでそれらの能力をベンチマークすることは、まだほとんど探索されていない。
本研究では,実世界の会話環境におけるLLMの評価を目的とした,多言語および文化的に整合した音声質問応答(SQA)データセットであるSpkenNativQAを紹介する。
このデータセットは、低リソース言語や方言に富んだ言語を含む複数の言語で、約33,000の自然言語による質問と回答で構成されており、音声に基づく対話におけるLLMのパフォーマンスを評価するための堅牢なベンチマークを提供する。
SpokenNativQAは、音声の可変性、アクセント、言語的多様性を取り入れたテキストベースのQAデータセットの制限に対処する。
我々は、SQAのための異なるASRシステムとLLMをベンチマークし、その結果を提示する。
研究コミュニティ向けのデータ(https://huggingface.co/datasets/QCRI/SpokenNativQA)と実験スクリプト(https://llmebench.qcri.org/)をリリースしました。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [7.478369203246005]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。
多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文 参考訳(メタデータ) (2025-04-01T09:55:23Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - NativQA: Multilingual Culturally-Aligned Natural Query for LLMs [12.35947908812959]
本研究では,言語に依存しないフレームワークであるNativQAを提案し,文化的・地域的に整合したQAデータセットをネイティブ言語でシームレスに構築する。
7言語で64kの注釈付きQAペアからなる多言語自然QAデータセットmnqaを設計することで,提案手法の有効性を実証する。
また,低リソースおよび方言に富んだ言語を対象とした微調整データ構築におけるフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-07-13T09:34:00Z) - mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。
現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。
CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文 参考訳(メタデータ) (2024-06-06T16:14:54Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models [21.95962189710859]
本稿では,LibriSQAデータセット上でSpoken Question Answering(SQA)タスクを実行するための軽量なエンドツーエンドフレームワークを提案する。
ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。
我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。
論文 参考訳(メタデータ) (2023-08-20T23:47:23Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。