論文の概要: Bridging the Culture Gap: A Framework for LLM-Driven Socio-Cultural Localization of Math Word Problems in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2508.14913v3
- Date: Tue, 07 Oct 2025 09:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.190087
- Title: Bridging the Culture Gap: A Framework for LLM-Driven Socio-Cultural Localization of Math Word Problems in Low-Resource Languages
- Title(参考訳): 文化ギャップのブリッジ:低リソース言語におけるLLM駆動型社会-文化-数学語問題の局所化のためのフレームワーク
- Authors: Israel Abebe Azime, Tadesse Destaw Belay, Dietrich Klakow, Philipp Slusallek, Anshuman Chhabra,
- Abstract要約: 本稿では,英語以外の言語における数学語問題における文化的ローカライゼーションの枠組みを紹介する。
翻訳されたベンチマークは、適切な社会文化的文脈下で真の多言語数学能力を曖昧にすることができる。
我々のフレームワークは、英語中心のエンティティバイアスを緩和し、ネイティブエンティティが様々な言語にまたがって導入されるときの堅牢性を改善するのに役立つ。
- 参考スコア(独自算出の注目度): 32.87800105020907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated significant capabilities in solving mathematical problems expressed in natural language. However, multilingual and culturally-grounded mathematical reasoning in low-resource languages lags behind English due to the scarcity of socio-cultural task datasets that reflect accurate native entities such as person names, organization names, and currencies. Existing multilingual benchmarks are predominantly produced via translation and typically retain English-centric entities, owing to the high cost associated with human annotater-based localization. Moreover, automated localization tools are limited, and hence, truly localized datasets remain scarce. To bridge this gap, we introduce a framework for LLM-driven cultural localization of math word problems that automatically constructs datasets with native names, organizations, and currencies from existing sources. We find that translated benchmarks can obscure true multilingual math ability under appropriate socio-cultural contexts. Through extensive experiments, we also show that our framework can help mitigate English-centric entity bias and improves robustness when native entities are introduced across various languages.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語で表される数学的問題を解く上で重要な能力を示している。
しかし、人名、組織名、通貨などの正確なネイティブエンティティを反映した社会文化的タスクデータセットが不足しているため、低リソース言語における多言語および文化的な数学的推論は英語より遅れている。
既存の多言語ベンチマークは主に翻訳によって作成され、典型的には英語中心のエンティティを保持する。
さらに、自動ローカライゼーションツールは限定的であるため、真のローカライズされたデータセットは依然として不足している。
このギャップを埋めるために,我々は,LLMによる数学用語の問題の文化的ローカライズのためのフレームワークを導入する。
翻訳されたベンチマークは、適切な社会文化的文脈下で真の多言語数学能力を曖昧にすることができる。
広範な実験を通じて、我々のフレームワークは、英語中心のエンティティバイアスを緩和し、ネイティブエンティティが様々な言語にまたがって導入されるときのロバスト性を向上させることも示している。
関連論文リスト
- CLM-Bench: Benchmarking and Analyzing Cross-lingual Misalignment of LLMs in Knowledge Editing [5.137059606366328]
CLM-Benchは中国固有の手法を用いて構築されたカルチャー対応のベンチマークである。
代表的LLMについて広範な実験を行い、言語間の相違を顕著に明らかにした。
本研究は,言語間移動における現在の手法の有効性に挑戦し,文化的にネイティブなベンチマークの重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-24T09:55:34Z) - Breaking Physical and Linguistic Borders: Multilingual Federated Prompt Tuning for Low-Resource Languages [27.63253872229416]
多言語シナリオのためのフェデレート・プロンプト・チューニング・パラダイムを提案する。
提案手法は精度が6.9%向上し,データ効率が向上した。
これらの知見は,社会平等を推進し,言語多様性を擁護するアプローチの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-02T05:23:20Z) - Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge [11.430887334254422]
本研究では,大規模,文化的,地域的に整合したQAデータセットをネイティブ言語でシームレスに構築できるNativQAフレームワークを提案する。
このフレームワークは24か国と7か国で39か所で評価され、300万以上の質問応答対が得られた。
論文 参考訳(メタデータ) (2025-04-08T13:01:51Z) - INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge [36.234295907476515]
機能的大規模言語モデル(LLM)の開発は、英語以外の言語における高品質な評価資源の欠如によってボトルネックとなっている。
本研究では,各地域における多言語LLMの能力を評価するため,現地試験資料から197,243対のQAペアの評価スイートを構築した。
論文 参考訳(メタデータ) (2024-11-29T16:03:14Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。