論文の概要: CultureSynth: A Hierarchical Taxonomy-Guided and Retrieval-Augmented Framework for Cultural Question-Answer Synthesis
- arxiv url: http://arxiv.org/abs/2509.10886v1
- Date: Sat, 13 Sep 2025 16:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.831793
- Title: CultureSynth: A Hierarchical Taxonomy-Guided and Retrieval-Augmented Framework for Cultural Question-Answer Synthesis
- Title(参考訳): CultureSynth: 文化的質問・回答のための階層型分類指導・検索型フレームワーク
- Authors: Xinyu Zhang, Pei Zhang, Shuang Luo, Jialong Tang, Yu Wan, Baosong Yang, Fei Huang,
- Abstract要約: 本稿では,大規模言語モデルの文化的能力を評価する新しいフレームワークであるCulture Synthを紹介する。
Culture Synth-7ベンチマークには、7つの言語にまたがる19,360項目と4,149項目の検証済みエントリが含まれている。
- 参考スコア(独自算出の注目度): 41.483432890962824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cultural competence, defined as the ability to understand and adapt to multicultural contexts, is increasingly vital for large language models (LLMs) in global environments. While several cultural benchmarks exist to assess LLMs' cultural competence, current evaluations suffer from fragmented taxonomies, domain specificity, and heavy reliance on manual data annotation. To address these limitations, we introduce CultureSynth, a novel framework comprising (1) a comprehensive hierarchical multilingual cultural taxonomy covering 12 primary and 130 secondary topics, and (2) a Retrieval-Augmented Generation (RAG)-based methodology leveraging factual knowledge to synthesize culturally relevant question-answer pairs. The CultureSynth-7 synthetic benchmark contains 19,360 entries and 4,149 manually verified entries across 7 languages. Evaluation of 14 prevalent LLMs of different sizes reveals clear performance stratification led by ChatGPT-4o-Latest and Qwen2.5-72B-Instruct. The results demonstrate that a 3B-parameter threshold is necessary for achieving basic cultural competence, models display varying architectural biases in knowledge processing, and significant geographic disparities exist across models. We believe that CultureSynth offers a scalable framework for developing culturally aware AI systems while reducing reliance on manual annotation\footnote{Benchmark is available at https://github.com/Eyr3/CultureSynth.}.
- Abstract(参考訳): 多文化的な文脈を理解・適応する能力として定義された文化能力は、グローバル環境における大規模言語モデル(LLM)にとってますます不可欠である。
LLMの文化的能力を評価するためにいくつかの文化ベンチマークが存在するが、現在の評価は断片化された分類学、ドメインの特異性、手動データアノテーションに大きく依存している。
このような制約に対処するため,(1)一次・130の二次トピックを包括的に網羅した階層的多言語文化的分類法であるCultureSynthを導入し,(2)事実知識を活用して文化的に関係のある質問・回答ペアを合成するRAG(Retrieval-Augmented Generation)に基づく手法を提案する。
CultureSynth-7 合成ベンチマークには、7つの言語にわたる19360のエントリと4,149の手作業による検証済みエントリが含まれている。
異なる大きさの14個のLLMの評価により,ChatGPT-4o-extとQwen2.5-72B-Instructが導いた明らかな性能成層化が示された。
その結果,基本的文化的能力を達成するためには3Bパラメータのしきい値が必要であること,知識処理におけるアーキテクチャ的バイアスが変化すること,モデル間での地理的格差が顕著であること,などが示唆された。
CultureSynthは、文化的に認識されたAIシステムを開発するためのスケーラブルなフレームワークを提供すると同時に、手作業によるアノテーションへの依存を低減します。
と。
関連論文リスト
- MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs [25.128936333806678]
大規模な言語モデルは、文化的バイアスと限定的な文化的理解能力を示す。
動的文化的質問構築を用いた多言語評価フレームワークであるMCEvalを提案する。
論文 参考訳(メタデータ) (2025-07-13T16:24:35Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。