論文の概要: CulturalBench: A Robust, Diverse, and Challenging Cultural Benchmark by Human-AI CulturalTeaming
- arxiv url: http://arxiv.org/abs/2410.02677v2
- Date: Tue, 03 Jun 2025 01:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:31.780677
- Title: CulturalBench: A Robust, Diverse, and Challenging Cultural Benchmark by Human-AI CulturalTeaming
- Title(参考訳): 文化ベンチ:人間-AI文化チームによるロバスト・ディバース・チャレージング文化ベンチマーク
- Authors: Yu Ying Chiu, Liwei Jiang, Bill Yuchen Lin, Chan Young Park, Shuyue Stella Li, Sahithya Ravi, Mehar Bhatia, Maria Antoniak, Yulia Tsvetkov, Vered Shwartz, Yejin Choi,
- Abstract要約: カルチャーベンチ(CulturalBench)は、LMの文化的知識を評価するための1,696の人文・人文的な質問である。
バングラデシュ、ジンバブエ、ペルーなど45の地域をカバーしている。
我々はHuman-AI Red-Teamingにインスパイアされた手法を用いてCulturalBenchを構築した。
- 参考スコア(独自算出の注目度): 75.82306181299153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust, diverse, and challenging cultural knowledge benchmarks are essential for measuring our progress towards making LMs that are helpful across diverse cultures. We introduce CulturalBench: a set of 1,696 human-written and human-verified questions to assess LMs' cultural knowledge, covering 45 global regions including underrepresented ones like Bangladesh, Zimbabwe, and Peru. Questions are each verified by five independent annotators and span 17 diverse topics ranging from food preferences to greeting etiquette. We construct CulturalBench using methods inspired by Human-AI Red-Teaming. Compared to human performance (92.4% accuracy), the hard version of CulturalBench is challenging even for the best-performing frontier LMs, ranging from 28.7% to 61.5% in accuracy. We find that LMs often struggle with tricky questions that have multiple correct answers (e.g., What utensils do the Chinese usually use?), revealing a tendency to overfit to a single answer. Our results indicate that GPT-4o substantially outperform other models across cultures, besting local providers (e.g., Mistral on European culture and DeepSeek on Chinese culture). Across the board, models under-perform on questions related to North Africa, South America and Middle East.
- Abstract(参考訳): 多様な文化で役に立つLMを作るための進捗を測定するためには、ロバストで多様で挑戦的な文化知識ベンチマークが不可欠です。
文化ベンチ(CulturalBench)とは、バングラデシュ、ジンバブエ、ペルーなど、45の世界的地域をカバーし、LMの文化的知識を評価するための1,696の人文的・人文的な質問である。
質問は、それぞれ5つの独立したアノテータによって検証され、食べ物の嗜好から挨拶のエチケットまで、幅広い17のトピックにまたがる。
我々はHuman-AI Red-Teamingにインスパイアされた手法を用いてCulturalBenchを構築した。
人間のパフォーマンス(92.4%の精度)と比較して、CulturalBenchのハードバージョンは28.7%から61.5%の精度で最高のパフォーマンスのフロンティアLMでも難しい。
LMは、複数の正しい答えを持つ難解な質問(例えば、中国人は通常どの道具を使うのか?
以上の結果から,GPT-4oは文化全体において他モデルを著しく上回り,地域プロバイダ(例えば,ヨーロッパ文化のMistral,中国文化のDeepSeek)を優位に立たせることが示唆された。
委員会全体では、北アフリカ、南アメリカ、中東に関する質問をモデルにしている。
関連論文リスト
- An Evaluation of Cultural Value Alignment in LLM [27.437888319382893]
20カ国の文化と言語を10のLLMで評価し,LLM文化の大規模評価を行った。
以上の結果から,全てのモデルにまたがるアウトプットは中程度の文化的中核となることが示唆された。
より深い調査は、モデルの起源、プロンプト言語、および価値次元が文化的なアウトプットに与える影響に光を当てている。
論文 参考訳(メタデータ) (2025-04-11T09:13:19Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia [0.1499944454332829]
この研究は、多様な方言と豊かな文化的伝統を特徴とするサウジアラビアに焦点を当てている。
大規模言語モデル(LLM)の文化的能力を評価するための新しいベンチマークであるSaudiCultureを紹介する。
このデータセットは、食べ物、衣服、エンターテイメント、祝祭、工芸品など、幅広い文化的領域を含んでいる。
論文 参考訳(メタデータ) (2025-03-21T18:55:10Z) - GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking [29.664707739055068]
GIMMICKは144か国にまたがる幅広い文化的知識を評価するために設計された広範囲なベンチマークである。
GIMMICKは、728のユニークな文化イベントやファセットにまたがる3つの新しいデータセット上に構築された6つのタスクで構成されている。
本研究では,(1)地域文化バイアス,(2)モデルサイズの影響,(3)入力モダリティ,(4)外部手がかりについて検討する。
論文 参考訳(メタデータ) (2025-02-19T14:27:40Z) - Self-Pluralising Culture Alignment for Large Language Models [36.689491885394034]
本稿では,大規模言語モデルと多言語文化との整合性を実現するフレームワークであるCultureSPAを提案する。
カルチャー・アウェア/アウェアアウトプットを比較することで、カルチャー関連インスタンスを検出し、収集することができる。
広範囲な実験により、CultureSPAは、一般の能力を損なうことなく、多様な文化へのLCMのアライメントを著しく改善することが示された。
論文 参考訳(メタデータ) (2024-10-16T19:06:08Z) - Cultural Value Differences of LLMs: Prompt, Language, and Model Size [35.176429953825924]
本研究の目的は,大規模言語モデル(LLM)による文化的価値の行動パターンの同定である。
研究された変種には、質問の順序付け、プロンプト言語、モデルサイズが含まれる。
実験の結果,LLMのクエリ言語とモデルサイズが文化的価値の相違をもたらす主な要因であることが判明した。
論文 参考訳(メタデータ) (2024-06-17T12:35:33Z) - BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.17279399722437]
大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。
BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。
提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-14T11:48:54Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。