論文の概要: CultureSynth: A Hierarchical Taxonomy-Guided and Retrieval-Augmented Framework for Cultural Question-Answer Synthesis
- arxiv url: http://arxiv.org/abs/2509.10886v1
- Date: Sat, 13 Sep 2025 16:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.831793
- Title: CultureSynth: A Hierarchical Taxonomy-Guided and Retrieval-Augmented Framework for Cultural Question-Answer Synthesis
- Title(参考訳): CultureSynth: 文化的質問・回答のための階層型分類指導・検索型フレームワーク
- Authors: Xinyu Zhang, Pei Zhang, Shuang Luo, Jialong Tang, Yu Wan, Baosong Yang, Fei Huang,
- Abstract要約: 本稿では,大規模言語モデルの文化的能力を評価する新しいフレームワークであるCulture Synthを紹介する。
Culture Synth-7ベンチマークには、7つの言語にまたがる19,360項目と4,149項目の検証済みエントリが含まれている。
- 参考スコア(独自算出の注目度): 41.483432890962824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cultural competence, defined as the ability to understand and adapt to multicultural contexts, is increasingly vital for large language models (LLMs) in global environments. While several cultural benchmarks exist to assess LLMs' cultural competence, current evaluations suffer from fragmented taxonomies, domain specificity, and heavy reliance on manual data annotation. To address these limitations, we introduce CultureSynth, a novel framework comprising (1) a comprehensive hierarchical multilingual cultural taxonomy covering 12 primary and 130 secondary topics, and (2) a Retrieval-Augmented Generation (RAG)-based methodology leveraging factual knowledge to synthesize culturally relevant question-answer pairs. The CultureSynth-7 synthetic benchmark contains 19,360 entries and 4,149 manually verified entries across 7 languages. Evaluation of 14 prevalent LLMs of different sizes reveals clear performance stratification led by ChatGPT-4o-Latest and Qwen2.5-72B-Instruct. The results demonstrate that a 3B-parameter threshold is necessary for achieving basic cultural competence, models display varying architectural biases in knowledge processing, and significant geographic disparities exist across models. We believe that CultureSynth offers a scalable framework for developing culturally aware AI systems while reducing reliance on manual annotation\footnote{Benchmark is available at https://github.com/Eyr3/CultureSynth.}.
- Abstract(参考訳): 多文化的な文脈を理解・適応する能力として定義された文化能力は、グローバル環境における大規模言語モデル(LLM)にとってますます不可欠である。
LLMの文化的能力を評価するためにいくつかの文化ベンチマークが存在するが、現在の評価は断片化された分類学、ドメインの特異性、手動データアノテーションに大きく依存している。
このような制約に対処するため,(1)一次・130の二次トピックを包括的に網羅した階層的多言語文化的分類法であるCultureSynthを導入し,(2)事実知識を活用して文化的に関係のある質問・回答ペアを合成するRAG(Retrieval-Augmented Generation)に基づく手法を提案する。
CultureSynth-7 合成ベンチマークには、7つの言語にわたる19360のエントリと4,149の手作業による検証済みエントリが含まれている。
異なる大きさの14個のLLMの評価により,ChatGPT-4o-extとQwen2.5-72B-Instructが導いた明らかな性能成層化が示された。
その結果,基本的文化的能力を達成するためには3Bパラメータのしきい値が必要であること,知識処理におけるアーキテクチャ的バイアスが変化すること,モデル間での地理的格差が顕著であること,などが示唆された。
CultureSynthは、文化的に認識されたAIシステムを開発するためのスケーラブルなフレームワークを提供すると同時に、手作業によるアノテーションへの依存を低減します。
と。
関連論文リスト
- Tears or Cheers? Benchmarking LLMs via Culturally Elicited Distinct Affective Responses [28.3173238194554]
CEDARは、文化的にアンダーラインのscElicited underlinetextscDistinct underlinetextscAffective underlinetextscResponsesをキャプチャするシナリオから構築されたベンチマークである。
その結果得られたベンチマークは、7つの言語に10,962のインスタンスと14のきめ細かい感情カテゴリで構成され、各言語には400のマルチモーダルと1,166のテキストのみのサンプルが含まれている。
論文 参考訳(メタデータ) (2026-01-19T13:04:26Z) - CALM: Culturally Self-Aware Language Models [22.309957211042597]
CALMは、文化的自己認識を持つ言語モデルを支援するために設計された新しいフレームワークである。
タスクのセマンティクスを、明示的な文化的概念や潜伏した文化的シグナルから切り離す。
結果として得られた統一表現は、文化的に根ざした内的アイデンティティ状態を構築するためのモデル本来の知識と融合する。
論文 参考訳(メタデータ) (2026-01-07T00:28:33Z) - Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs [25.128936333806678]
大規模な言語モデルは、文化的バイアスと限定的な文化的理解能力を示す。
動的文化的質問構築を用いた多言語評価フレームワークであるMCEvalを提案する。
論文 参考訳(メタデータ) (2025-07-13T16:24:35Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。