論文の概要: SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs
- arxiv url: http://arxiv.org/abs/2505.19163v1
- Date: Sun, 25 May 2025 14:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.943817
- Title: SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs
- Title(参考訳): SpokenNativQA: LLM用のマルチ言語毎日のスポットクエリ
- Authors: Firoj Alam, Md Arid Hasan, Shammur Absar Chowdhury,
- Abstract要約: SpokenNativQAは、最初の多言語および文化的に整列された音声質問応答データセットである。
データセットは、複数の言語で約33,000の自然に話される質問と回答から構成される。
- 参考スコア(独自算出の注目度): 12.60449414234283
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across various disciplines and tasks. However, benchmarking their capabilities with multilingual spoken queries remains largely unexplored. In this study, we introduce SpokenNativQA, the first multilingual and culturally aligned spoken question-answering (SQA) dataset designed to evaluate LLMs in real-world conversational settings. The dataset comprises approximately 33,000 naturally spoken questions and answers in multiple languages, including low-resource and dialect-rich languages, providing a robust benchmark for assessing LLM performance in speech-based interactions. SpokenNativQA addresses the limitations of text-based QA datasets by incorporating speech variability, accents, and linguistic diversity. We benchmark different ASR systems and LLMs for SQA and present our findings. We released the data at (https://huggingface.co/datasets/QCRI/SpokenNativQA) and the experimental scripts at (https://llmebench.qcri.org/) for the research community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野やタスクで顕著なパフォーマンスを示している。
しかし、多言語音声クエリでそれらの能力をベンチマークすることは、まだほとんど探索されていない。
本研究では,実世界の会話環境におけるLLMの評価を目的とした,多言語および文化的に整合した音声質問応答(SQA)データセットであるSpkenNativQAを紹介する。
このデータセットは、低リソース言語や方言に富んだ言語を含む複数の言語で、約33,000の自然言語による質問と回答で構成されており、音声に基づく対話におけるLLMのパフォーマンスを評価するための堅牢なベンチマークを提供する。
SpokenNativQAは、音声の可変性、アクセント、言語的多様性を取り入れたテキストベースのQAデータセットの制限に対処する。
我々は、SQAのための異なるASRシステムとLLMをベンチマークし、その結果を提示する。
研究コミュニティ向けのデータ(https://huggingface.co/datasets/QCRI/SpokenNativQA)と実験スクリプト(https://llmebench.qcri.org/)をリリースしました。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [7.478369203246005]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。
多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文 参考訳(メタデータ) (2025-04-01T09:55:23Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - NativQA: Multilingual Culturally-Aligned Natural Query for LLMs [12.35947908812959]
本研究では,言語に依存しないフレームワークであるNativQAを提案し,文化的・地域的に整合したQAデータセットをネイティブ言語でシームレスに構築する。
7言語で64kの注釈付きQAペアからなる多言語自然QAデータセットmnqaを設計することで,提案手法の有効性を実証する。
また,低リソースおよび方言に富んだ言語を対象とした微調整データ構築におけるフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-07-13T09:34:00Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。