Fugu-MT 論文翻訳(概要): PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian

論文の概要: PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian

arxiv url: http://arxiv.org/abs/2502.07459v1
Date: Tue, 11 Feb 2025 11:07:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.1182
Title: PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian
Title（参考訳）: PerCul: ペルシャのLLMのストーリー駆動文化評価
Authors: Erfan Moosavi Monazzah, Vahid Rahimzadeh, Yadollah Yaghoobzadeh, Azadeh Shakery, Mohammad Taher Pilehvar,
Abstract要約: PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。 PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
参考スコア（独自算出の注目度）: 19.816050739495573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models predominantly reflect Western cultures, largely due to the dominance of English-centric training data. This imbalance presents a significant challenge, as LLMs are increasingly used across diverse contexts without adequate evaluation of their cultural competence in non-English languages, including Persian. To address this gap, we introduce PerCul, a carefully constructed dataset designed to assess the sensitivity of LLMs toward Persian culture. PerCul features story-based, multiple-choice questions that capture culturally nuanced scenarios. Unlike existing benchmarks, PerCul is curated with input from native Persian annotators to ensure authenticity and to prevent the use of translation as a shortcut. We evaluate several state-of-the-art multilingual and Persian-specific LLMs, establishing a foundation for future research in cross-cultural NLP evaluation. Our experiments demonstrate a 11.3% gap between best closed source model and layperson baseline while the gap increases to 21.3% by using the best open-weight model. You can access the dataset from here: https://huggingface.co/datasets/teias-ai/percul
Abstract（参考訳）: 大規模な言語モデルは、主に西洋文化を反映しており、主に英語中心のトレーニングデータが支配的であった。この不均衡は、ペルシア語を含む非英語の言語における文化的能力について十分な評価をすることなく、様々な文脈でLLMが使われるようになり、大きな課題となっている。このギャップに対処するために、ペルカルはペルシャ文化に対するLLMの感受性を評価するために設計された、慎重に構築されたデータセットである。 PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。既存のベンチマークとは異なり、PerCulはネイティブペルシャのアノテータからの入力でキュレートされ、信頼性を確保し、翻訳をショートカットとして使用するのを防ぐ。我々は、最先端の多言語およびペルシア固有のLPMを評価し、異文化NLP評価における今後の研究の基盤を確立した。実験では,最良クローズドソースモデルと素人ベースラインとの間に11.3%のギャップがみられ,その間隙は最良オープンウェイトモデルを用いて21.3%に増大した。データセットはこちらからアクセスできる。 https://huggingface.co/datasets/teias-ai/percul

関連論文リスト

CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文参考訳（メタデータ） (2025-04-07T14:57:06Z)
Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench [37.63947763066401]
CQ-Benchは、大きな言語モデルの暗黙の文化的価値を推測する能力を評価するために設計されたベンチマークである。我々は、World Value SurveyとGlobalOpinionsデータセットの値を用いて、マルチ文字の会話ベースのストーリーデータセットを生成する。 o1モデルとDeepseek-R1モデルは、値選択において人間レベルのパフォーマンスに達するが、それでもニュアンスな姿勢検出では不足している。 GPT-4o-miniとo3-miniのスコア0.602と0.598は、オープンエンドの文化的推論の難しさを浮き彫りにした。
論文参考訳（メタデータ） (2025-04-01T18:54:47Z)
Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking [12.078532717928185]
大型言語モデル(LLM)は、西洋文化、アングロ・セントリック文化、アメリカ文化への偏見を示し続けている。我々は、アラビア語の証明を理解し解釈するLLMの能力を評価するために設計されたベンチマークであるJawaherを紹介する。 LLMは慣用的に正確な翻訳を生成できるが、文化的にニュアンスで文脈的に関係のある説明を生み出すのに苦労している。
論文参考訳（メタデータ） (2025-02-28T22:28:00Z)
Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [2.5212698425008377]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。 GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文参考訳（メタデータ） (2025-02-23T11:02:41Z)
Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation [36.92567530333872]
我々は,大言語モデル(LLM)に新しい言語,すなわちペルシア語を追加することを研究する。我々は単言語ペルシャ語のデータの事前学習を含む多段階的アプローチを採用する。生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-17T23:18:06Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language? [3.4812080203308984]
ハヤム・チャレンジ(Khayyam Challenge、ペルシア語MMLU)は、ペルシアの試験から抽出された38の多様なタスクから得られた20,192の4つの質問のコレクションである。 Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
論文参考訳（メタデータ） (2024-04-09T22:38:13Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
CultureLLM: Incorporating Cultural Differences into Large Language Models [36.66184989869121]
CultureLLMは、大きな言語モデルに文化的差異を組み込むためのコスト効率の良いソリューションである。我々は、リッチで低リソースな言語をカバーする9つの文化に対して、文化固有のLLMと1つの統一モデル(CultureLLM-One)を微調整する。我々の人間による研究は、生成されたサンプルが元のサンプルと意味的に等価であることを示している。
論文参考訳（メタデータ） (2024-02-09T04:02:43Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。