論文の概要: Bridging the Culture Gap: A Framework for LLM-Driven Socio-Cultural Localization of Math Word Problems in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2508.14913v2
- Date: Fri, 22 Aug 2025 11:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 14:39:45.320206
- Title: Bridging the Culture Gap: A Framework for LLM-Driven Socio-Cultural Localization of Math Word Problems in Low-Resource Languages
- Title(参考訳): 文化ギャップのブリッジ:低リソース言語におけるLLM駆動型社会-文化-数学語問題の局所化のためのフレームワーク
- Authors: Israel Abebe Azime, Tadesse Destaw Belay, Dietrich Klakow, Philipp Slusallek, Anshuman Chhabra,
- Abstract要約: 本稿では,英語以外の言語における数学語問題における文化的ローカライゼーションの枠組みを紹介する。
翻訳されたベンチマークは、適切な社会文化的文脈下で真の多言語数学能力を曖昧にすることができる。
我々のフレームワークは、英語中心のエンティティバイアスを緩和し、ネイティブエンティティが様々な言語にまたがって導入されるときの堅牢性を改善するのに役立つ。
- 参考スコア(独自算出の注目度): 32.87800105020907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated significant capabilities in solving mathematical problems expressed in natural language. However, multilingual and culturally-grounded mathematical reasoning in low-resource languages lags behind English due to the scarcity of socio-cultural task datasets that reflect accurate native entities such as person names, organization names, and currencies. Existing multilingual benchmarks are predominantly produced via translation and typically retain English-centric entities, owing to the high cost associated with human annotater-based localization. Moreover, automated localization tools are limited, and hence, truly localized datasets remain scarce. To bridge this gap, we introduce a framework for LLM-driven cultural localization of math word problems that automatically constructs datasets with native names, organizations, and currencies from existing sources. We find that translated benchmarks can obscure true multilingual math ability under appropriate socio-cultural contexts. Through extensive experiments, we also show that our framework can help mitigate English-centric entity bias and improves robustness when native entities are introduced across various languages.
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語で表される数学的問題を解く上で重要な能力を示している。
しかし、人名、組織名、通貨などの正確なネイティブエンティティを反映した社会文化的タスクデータセットが不足しているため、低リソース言語における多言語および文化的な数学的推論は英語より遅れている。
既存の多言語ベンチマークは主に翻訳によって作成され、典型的には英語中心のエンティティを保持する。
さらに、自動ローカライゼーションツールは限定的であるため、真のローカライズされたデータセットは依然として不足している。
このギャップを埋めるために,我々は,LLMによる数学用語の問題の文化的ローカライズのためのフレームワークを導入する。
翻訳されたベンチマークは、適切な社会文化的文脈下で真の多言語数学能力を曖昧にすることができる。
広範な実験を通じて、我々のフレームワークは、英語中心のエンティティバイアスを緩和し、ネイティブエンティティが様々な言語にまたがって導入されるときのロバスト性を向上させることも示している。
関連論文リスト
- Breaking Physical and Linguistic Borders: Multilingual Federated Prompt Tuning for Low-Resource Languages [27.63253872229416]
多言語シナリオのためのフェデレート・プロンプト・チューニング・パラダイムを提案する。
提案手法は精度が6.9%向上し,データ効率が向上した。
これらの知見は,社会平等を推進し,言語多様性を擁護するアプローチの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-02T05:23:20Z) - Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge [11.430887334254422]
本研究では,大規模,文化的,地域的に整合したQAデータセットをネイティブ言語でシームレスに構築できるNativQAフレームワークを提案する。
このフレームワークは24か国と7か国で39か所で評価され、300万以上の質問応答対が得られた。
論文 参考訳(メタデータ) (2025-04-08T13:01:51Z) - INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge [36.234295907476515]
機能的大規模言語モデル(LLM)の開発は、英語以外の言語における高品質な評価資源の欠如によってボトルネックとなっている。
本研究では,各地域における多言語LLMの能力を評価するため,現地試験資料から197,243対のQAペアの評価スイートを構築した。
論文 参考訳(メタデータ) (2024-11-29T16:03:14Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。