論文の概要: Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models
- arxiv url: http://arxiv.org/abs/2505.18638v1
- Date: Sat, 24 May 2025 11:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.557378
- Title: Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models
- Title(参考訳): 低リソース環境における多言語質問応答:基礎モデルのためのDzongkha-Englishベンチマーク
- Authors: Md. Tanzib Hosain, Rajan Das Gupta, Md. Kishor Morol,
- Abstract要約: ブータンの中学校と高校生を対象に、Dzongkhaと英語の同時テスト質問のデータセットを提供する。
私たちのコレクションにある5万以上の質問は、さまざまな科学的トピックに及び、事実、応用、推論に基づく質問を含む。
並列データセットを用いて、多数のLarge Language Model(LLM)をテストし、英語とDzongkhaのモデル間で大きなパフォーマンス差を見出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we provide DZEN, a dataset of parallel Dzongkha and English test questions for Bhutanese middle and high school students. The over 5K questions in our collection span a variety of scientific topics and include factual, application, and reasoning-based questions. We use our parallel dataset to test a number of Large Language Models (LLMs) and find a significant performance difference between the models in English and Dzongkha. We also look at different prompting strategies and discover that Chain-of-Thought (CoT) prompting works well for reasoning questions but less well for factual ones. We also find that adding English translations enhances the precision of Dzongkha question responses. Our results point to exciting avenues for further study to improve LLM performance in Dzongkha and, more generally, in low-resource languages. We release the dataset at: https://github.com/kraritt/llm_dzongkha_evaluation.
- Abstract(参考訳): 本研究は,ブータン中高生を対象としたDZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN,DZEN, DZEN,DZEN,DZEN,DZENの3。
私たちのコレクションにある5万以上の質問は、さまざまな科学的トピックに及び、事実、応用、推論に基づく質問を含む。
並列データセットを用いて、多数のLarge Language Model(LLM)をテストし、英語とDzongkhaのモデル間で大きなパフォーマンス差を見出した。
また、さまざまなプロンプト戦略を検討し、Chain-of-Thought(CoT)プロンプトが推論に適しているが、現実にはあまり役に立たないことを発見した。
また、英語の翻訳を追加することで、Dzongkha質問応答の精度が向上することがわかった。
以上の結果から,Dzongkha およびより一般的には低リソース言語における LLM の性能向上に向けたさらなる研究が期待できる。
データセットは、https://github.com/kraritt/llm_dzongkha_evaluationでリリースします。
関連論文リスト
- Anveshana: A New Benchmark Dataset for Cross-Lingual Information Retrieval On English Queries and Sanskrit Documents [7.967320126793103]
この研究はサンスクリット語のニュアンスに関する最先端のモデルである。
これはサンスクリット文書の要約手法を適用してQA処理を改善する。
3400の英語とサンスクリットの問合せ文書のデータセットが研究の基盤となっている。
論文 参考訳(メタデータ) (2025-05-26T04:23:21Z) - INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [25.402797722575805]
インデックスQAベンチマーク(Indic QA Benchmark)は、インドの主要言語11言語を対象にした、文脈に基づく質問応答のためのデータセットである。
評価の結果,学習データに強い英語バイアスがあるため,低資源言語では弱い性能を示した。
また、入力を英語に翻訳して処理し、その結果をソース言語に変換して出力するTranslate Testパラダイムについても検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English [18.217122567176585]
バングラデシュの中・高校生を対象に,ベンガル語と英語の同時試験質問からなるデータセットBEnQAを紹介した。
我々のデータセットは, 事実, 応用, 推論に基づく質問など, さまざまなタイプの質問を科学の複数の被験者にカバーする約5Kの質問で構成されている。
並列データセットを用いて複数のLarge Language Model (LLM) をベンチマークし、ベンガル語と英語のモデルの顕著な性能格差を観察する。
論文 参考訳(メタデータ) (2024-03-16T11:27:42Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - Claim Matching Beyond English to Scale Global Fact-Checking [5.836354423653351]
我々は、ファクトチェックされたクレームに加えて、WhatsAppのチップラインと公開グループメッセージの新しいデータセットを構築します。
我々のデータセットには、高リソース(英語、ヒンディー語)と低リソース(ベンガル語、マラヤラム語、タミル語)のコンテンツが含まれています。
我々は、低リソース言語と高リソース言語の埋め込み品質の不均衡に対応するため、知識蒸留と高品質な「教師」モデルを用いて、独自の埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2021-06-01T23:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。