Fugu-MT 論文翻訳(概要): Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese

論文の概要: Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese

arxiv url: http://arxiv.org/abs/2402.17302v2
Date: Tue, 16 Apr 2024 07:41:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 22:56:09.928157
Title: Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese
Title（参考訳）: LLMは文化的関連コモンセンスQAデータを生成することができるか? : インドネシアとスンダのケーススタディ
Authors: Rifki Afina Putri, Faiz Ghifari Haznitrama, Dea Adhista, Alice Oh,
Abstract要約: 大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。言語に埋め込まれた知識と文化的ニュアンスを組み込んだQAデータセットを生成できるかどうかは不明だ。本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。
参考スコア（独自算出の注目度）: 14.463110500907492
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly being used to generate synthetic data for training and evaluating models. However, it is unclear whether they can generate a good quality of question answering (QA) dataset that incorporates knowledge and cultural nuance embedded in a language, especially for low-resource languages. In this study, we investigate the effectiveness of using LLMs in generating culturally relevant commonsense QA datasets for Indonesian and Sundanese languages. To do so, we create datasets for these languages using various methods involving both LLMs and human annotators, resulting in ~4.5K questions per language (~9K in total), making our dataset the largest of its kind. Our experiments show that automatic data adaptation from an existing English dataset is less effective for Sundanese. Interestingly, using the direct generation method on the target language, GPT-4 Turbo can generate questions with adequate general knowledge in both languages, albeit not as culturally 'deep' as humans. We also observe a higher occurrence of fluency errors in the Sundanese dataset, highlighting the discrepancy between medium- and lower-resource languages.
Abstract（参考訳）: 大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。しかし、言語に埋め込まれた知識と文化的ニュアンス(特に低リソース言語)を組み込んだQAデータセットを生成できるかどうかは不明である。本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。そのために、LLMと人間のアノテータの両方を含む様々な手法を用いて、これらの言語のためのデータセットを作成します。実験の結果,既存の英語データセットからの自動データ適応はサンダン語では効果が低いことがわかった。興味深いことに、GPT-4 Turboはターゲット言語上の直接生成法を用いて、文化的に「深み」ではないが、両方の言語で十分な一般知識を持つ質問を生成することができる。また,Sundaneseデータセットのフラレンシエラーの発生頻度も高く,中級言語と低級言語の相違点を浮き彫りにしている。

関連論文リスト

Language Models Entangle Language and Culture [1.0742675209112622]
WildChatデータセットの分析に基づいて、現実世界のオープンエンドの質問セットを作成します。私たちは、応答が言語によって異なるか、具体的には、応答の品質がモデルに問い合わせる言語に依存するかを評価するためにそれを使用します。言語は、モデルが使用する文化的な文脈に大きな影響を与えます。
論文参考訳（メタデータ） (2026-01-20T10:46:44Z)
Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance [0.0]
Hindi- English bi-lingual LLM textbfMantra-14B with 3% improve in benchmark scores over both languages。我々は、Qwen-2.5-14B-InstructやPhi-4といったチューニングモデルに、英語とヒンディー語の両方のパフォーマンスを改善するよう指示した。以上の結果から,文化的・局所的な情報を用いた微調整は,計算オーバーヘッドを伴わずに性能ギャップを埋めることが可能であることが示唆された。
論文参考訳（メタデータ） (2025-04-13T23:10:13Z)
Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文参考訳（メタデータ） (2025-02-18T15:14:58Z)
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文参考訳（メタデータ） (2024-07-18T13:57:16Z)
NativQA: Multilingual Culturally-Aligned Natural Query for LLMs [12.35947908812959]
本研究では,言語に依存しないフレームワークであるNativQAを提案し,文化的・地域的に整合したQAデータセットをネイティブ言語でシームレスに構築する。 7言語で64kの注釈付きQAペアからなる多言語自然QAデータセットmnqaを設計することで,提案手法の有効性を実証する。また,低リソースおよび方言に富んだ言語を対象とした微調整データ構築におけるフレームワークの有効性を示す。
論文参考訳（メタデータ） (2024-07-13T09:34:00Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。 CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文参考訳（メタデータ） (2024-06-06T16:14:54Z)
Lean Workbook: A large-scale Lean problem set formalized from natural language math problems [50.22847430754973]
大規模な言語モデルは、リーンのような形式言語を使って証明する数学の定理が得意ではありません。この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。本稿では,自然言語の数学的問題をリーン4文に変換するために,合成データを反復的に生成・フィルタリングするパイプラインを提案する。
論文参考訳（メタデータ） (2024-06-06T08:25:43Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。 AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文参考訳（メタデータ） (2023-11-14T08:10:14Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文参考訳（メタデータ） (2023-05-22T17:47:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。