Fugu-MT 論文翻訳(概要): NativQA: Multilingual Culturally-Aligned Natural Query for LLMs

論文の概要: NativQA: Multilingual Culturally-Aligned Natural Query for LLMs

arxiv url: http://arxiv.org/abs/2407.09823v3
Date: Fri, 30 May 2025 14:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.428101
Title: NativQA: Multilingual Culturally-Aligned Natural Query for LLMs
Title（参考訳）: NativQA: LLMのための多言語文化的適応型自然言語クエリ
Authors: Md. Arid Hasan, Maram Hasanain, Fatema Ahmad, Sahinur Rahman Laskar, Sunaya Upadhyay, Vrunda N Sukhadia, Mucahid Kutlu, Shammur Absar Chowdhury, Firoj Alam,
Abstract要約: 大規模言語モデル(LLM)の能力を評価する上で、QAデータセットは重要な役割を果たす。文化的かつ地域的に整合したQAデータセットをシームレスに構築する,スケーラブルで言語に依存しないフレームワークであるNativQAを提案する。 7言語で64kの注釈付きQAペアからなる多言語自然QAデータセットであるMultiNativQAを設計することで,提案手法の有効性を実証する。
参考スコア（独自算出の注目度）: 12.35947908812959
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Natural Question Answering (QA) datasets play a crucial role in evaluating the capabilities of large language models (LLMs), ensuring their effectiveness in real-world applications. Despite the numerous QA datasets that have been developed and some work has been done in parallel, there is a notable lack of a framework and large scale region-specific datasets queried by native users in their own languages. This gap hinders the effective benchmarking and the development of fine-tuned models for regional and cultural specificities. In this study, we propose a scalable, language-independent framework, NativQA, to seamlessly construct culturally and regionally aligned QA datasets in native languages, for LLM evaluation and tuning. We demonstrate the efficacy of the proposed framework by designing a multilingual natural QA dataset, MultiNativQA, consisting of ~64k manually annotated QA pairs in seven languages, ranging from high to extremely low resource, based on queries from native speakers from 9 regions covering 18 topics. We benchmark open- and closed-source LLMs with the MultiNativQA dataset. We made the MultiNativQA dataset(https://huggingface.co/datasets/QCRI/MultiNativQA), and other experimental scripts(https://gitlab.com/nativqa/multinativqa) publicly available for the community.
Abstract（参考訳）: 自然質問回答(QA)データセットは、大規模言語モデル(LLM)の能力を評価する上で重要な役割を果たす。多数のQAデータセットが開発され、いくつかの作業が並行して実施されているにも関わらず、フレームワークが欠如しており、独自の言語でネイティブユーザによってクエリされた大規模なリージョン固有のデータセットがある。このギャップは、効果的なベンチマークと、地域や文化的特異性のための微調整されたモデルの開発を妨げる。本研究では,言語に依存しないスケーラブルなフレームワークであるNativQAを提案し,LLMの評価とチューニングのために,文化的かつ地域的に整合したQAデータセットをネイティブ言語でシームレスに構築する。提案手法の有効性を,多言語対応の自然QAデータセットであるMultiNativQAの設計により実証した。オープンソースのLCMとMultiNativQAデータセットをベンチマークする。我々は、MultiNativQAデータセット(https://huggingface.co/datasets/QCRI/MultiNativQA)や他の実験スクリプト(https://gitlab.com/nativqa/multinativqa)をコミュニティ向けに公開しました。

関連論文リスト

EverydayMMQA: A Multilingual and Multimodal Framework for Culturally Grounded Spoken Visual QA [22.30611382189773]
Everyday Multimodal and Multilingual QA (EverydayMMQA)について紹介する。 OASISは、音声、画像、テキストを統合するマルチモーダルデータセットである。クローズドソースモデル4つ、オープンソースモデル3つ、微調整モデル1つをベンチマークした。
論文参考訳（メタデータ） (2025-10-07T18:37:32Z)
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs [12.60449414234283]
SpokenNativQAは、最初の多言語および文化的に整列された音声質問応答データセットである。データセットは、複数の言語で約33,000の自然に話される質問と回答から構成される。
論文参考訳（メタデータ） (2025-05-25T14:22:18Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [16.21019515431378]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文参考訳（メタデータ） (2025-05-20T14:14:00Z)
NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge [10.754622388103856]
本研究では,大規模,文化的,地域的に整合したQAデータセットをネイティブ言語でシームレスに構築できるフレームワークであるNativQAを提案する。このフレームワークは24の国と7の言語で39か所で評価されている。
論文参考訳（メタデータ） (2025-04-08T13:01:51Z)
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文参考訳（メタデータ） (2025-01-22T12:06:16Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文参考訳（メタデータ） (2024-10-04T16:26:12Z)
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文参考訳（メタデータ） (2024-07-18T13:57:16Z)
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。 CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文参考訳（メタデータ） (2024-06-06T16:14:54Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese [14.463110500907492]
大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。言語に埋め込まれた知識と文化的ニュアンスを組み込んだQAデータセットを生成できるかどうかは不明だ。本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。
論文参考訳（メタデータ） (2024-02-27T08:24:32Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。 AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文参考訳（メタデータ） (2023-11-14T08:10:14Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。言語に習熟したNLP研究者と集団労働者を対象に調査を行った。メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文参考訳（メタデータ） (2022-11-28T18:54:33Z)
QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文参考訳（メタデータ） (2022-11-15T16:14:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。