論文の概要: Rethinking AI Cultural Evaluation
- arxiv url: http://arxiv.org/abs/2501.07751v1
- Date: Mon, 13 Jan 2025 23:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:28.544012
- Title: Rethinking AI Cultural Evaluation
- Title(参考訳): AI文化評価の再考
- Authors: Michal Bravansky, Filip Trhlik, Fazl Barez,
- Abstract要約: 現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。
本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。
MCQを超えて、よりオープンな、コンテキスト固有のアセスメントを採用することをお勧めします。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License:
- Abstract: As AI systems become more integrated into society, evaluating their capacity to align with diverse cultural values is crucial for their responsible deployment. Current evaluation methods predominantly rely on multiple-choice question (MCQ) datasets. In this study, we demonstrate that MCQs are insufficient for capturing the complexity of cultural values expressed in open-ended scenarios. Our findings highlight significant discrepancies between MCQ-based assessments and the values conveyed in unconstrained interactions. Based on these findings, we recommend moving beyond MCQs to adopt more open-ended, context-specific assessments that better reflect how AI models engage with cultural values in realistic settings.
- Abstract(参考訳): AIシステムが社会にさらに統合されるにつれて、さまざまな文化的価値と整合する能力を評価することが、責任を負うデプロイメントに不可欠である。
現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。
本研究では,MCQがオープンエンドシナリオで表現される文化的価値の複雑さを捉えるには不十分であることを実証する。
本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。
これらの結果に基づいて、我々はMCQを超えて、AIモデルが現実的な環境で文化的な価値とどのように関わるかをより良く反映した、よりオープンな文脈特異的な評価を採用することを推奨します。
関連論文リスト
- Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs [17.673012459377375]
大規模言語モデル(LLM)における文化的アライメントを評価するために、クローズドスタイルのマルチチョイスサーベイに依存する研究が多数ある。
本研究では、この制約された評価パラダイムに挑戦し、より現実的で制約のないアプローチを探求する。
論文 参考訳(メタデータ) (2025-02-12T01:04:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
本研究では,テキスト生成中に文化的・人口的知識を動的に統合するためのValuesRAGを提案する。
ValuesRAGは、メイン実験とアブレーション研究の両方において、ベースライン法よりも一貫して優れている。
特に、ValuesRAGは、他のベースライン手法よりも21%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output [8.435090588116973]
LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。
次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。
提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
論文 参考訳(メタデータ) (2024-11-09T01:38:55Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。