論文の概要: Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2502.12932v1
- Date: Tue, 18 Feb 2025 15:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:09.017769
- Title: Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages
- Title(参考訳): 低リソース言語における文化的ナンセンス推論のための合成データ生成
- Authors: Salsabila Zahirah Pranida, Rifo Ahmad Genadi, Fajri Koto,
- Abstract要約: 1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。
以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
- 参考スコア(独自算出の注目度): 5.376127198656944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantifying reasoning capability in low-resource languages remains a challenge in NLP due to data scarcity and limited access to annotators. While LLM-assisted dataset construction has proven useful for medium- and high-resource languages, its effectiveness in low-resource languages, particularly for commonsense reasoning, is still unclear. In this paper, we compare three dataset creation strategies: (1) LLM-assisted dataset generation, (2) machine translation, and (3) human-written data by native speakers, to build a culturally nuanced story comprehension dataset. We focus on Javanese and Sundanese, two major local languages in Indonesia, and evaluate the effectiveness of open-weight and closed-weight LLMs in assisting dataset creation through extensive manual validation. To assess the utility of synthetic data, we fine-tune language models on classification and generation tasks using this data and evaluate performance on a human-written test set. Our findings indicate that LLM-assisted data creation outperforms machine translation.
- Abstract(参考訳): 低リソース言語における推論能力の定量化は、データ不足とアノテータへのアクセス制限のため、NLPでは依然として課題である。
LLMによるデータセット構築は中・高リソース言語に有用であることが証明されているが、低リソース言語、特にコモンセンス推論における有効性はまだ不明である。
本稿では,(1)LLM支援データセット生成,(2)機械翻訳,(3)ネイティブ話者による人書きデータという3つのデータセット作成戦略を比較し,文化的に曖昧なストーリー理解データセットを構築する。
インドネシアの2大ローカル言語であるJavaneseとSundaneseに注目し、広範囲な手作業によるデータセット作成を支援するために、オープンウェイトおよびクローズドウェイトLLMの有効性を評価する。
合成データの有用性を評価するため,本データを用いた分類・生成タスクの微調整言語モデルを作成し,人手によるテストセットの性能評価を行った。
以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
関連論文リスト
- LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。
文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。
対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文 参考訳(メタデータ) (2026-01-25T20:05:04Z) - Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities [28.926075586175173]
LLM(Large Language Models)の言語能力を低リソース言語に拡張することは、重要な研究分野である。
現在の研究方向は、英語コーパスの翻訳によって生成された合成データに依存している。
本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T21:18:40Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - CARE: Multilingual Human Preference Learning for Cultural Awareness [48.760262639641496]
我々は,3,490の文化的特異な質問と31.7kの人的判断応答を含む多言語リソースであるtextbfCAREを紹介する。
質の高いネイティブな嗜好の質が、様々なLMの文化意識をいかに向上させるかを示す。
分析の結果,初期の文化的パフォーマンスが向上したモデルの方がアライメントの恩恵を受けやすいことがわかった。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [5.8210182389588105]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。
しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。
GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。
言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文 参考訳(メタデータ) (2025-02-23T11:02:41Z) - PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation [1.0173628293062005]
大規模言語モデル(LLM)は、様々な複雑な言語タスクに適用されている。
本稿では,ベトナムのファクトチェックタスクにおけるLPMを用いた自動データ生成について検討する。
簡単なプロンプト技術を用いて自動データ構築プロセスを開発し、生成したデータの品質を改善するためにいくつかの手法を探索する。
論文 参考訳(メタデータ) (2024-11-08T15:35:43Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese [14.463110500907492]
大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。
言語に埋め込まれた知識と文化的ニュアンスを組み込んだQAデータセットを生成できるかどうかは不明だ。
本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。
論文 参考訳(メタデータ) (2024-02-27T08:24:32Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。