論文の概要: Rethinking AI Cultural Evaluation
- arxiv url: http://arxiv.org/abs/2501.07751v1
- Date: Mon, 13 Jan 2025 23:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 17:02:04.330913
- Title: Rethinking AI Cultural Evaluation
- Title(参考訳): AI文化評価の再考
- Authors: Michal Bravansky, Filip Trhlik, Fazl Barez,
- Abstract要約: 現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。
本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。
MCQを超えて、よりオープンな、コンテキスト固有のアセスメントを採用することをお勧めします。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more integrated into society, evaluating their capacity to align with diverse cultural values is crucial for their responsible deployment. Current evaluation methods predominantly rely on multiple-choice question (MCQ) datasets. In this study, we demonstrate that MCQs are insufficient for capturing the complexity of cultural values expressed in open-ended scenarios. Our findings highlight significant discrepancies between MCQ-based assessments and the values conveyed in unconstrained interactions. Based on these findings, we recommend moving beyond MCQs to adopt more open-ended, context-specific assessments that better reflect how AI models engage with cultural values in realistic settings.
- Abstract(参考訳): AIシステムが社会にさらに統合されるにつれて、さまざまな文化的価値と整合する能力を評価することが、責任を負うデプロイメントに不可欠である。
現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。
本研究では,MCQがオープンエンドシナリオで表現される文化的価値の複雑さを捉えるには不十分であることを実証する。
本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。
これらの結果に基づいて、我々はMCQを超えて、AIモデルが現実的な環境で文化的な価値とどのように関わるかをより良く反映した、よりオープンな文脈特異的な評価を採用することを推奨します。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
ValuesRAGは、テキスト生成中に文化的および人口統計学的知識を動的に統合するフレームワークである。
主実験およびアブレーション研究において、ベースライン法を一貫して上回る。
文化的に整合したAIシステムを育み、AI駆動型アプリケーションの傾きを高めることができる。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.38159901496538]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
近年のAIの進歩は、科学的発見と意思決定支援において人間を支援できる技術をもたらしたが、民主主義と個人を妨害する可能性がある。
AIの責任ある使用は、ますます人間とAIのチームの必要性を示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output [8.435090588116973]
LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。
次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。
提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
論文 参考訳(メタデータ) (2024-11-09T01:38:55Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - How Culture Shapes What People Want From AI [0.0]
文化的に多様なグループの視点をAI開発に組み込む必要がある。
我々は,AIの主流となるビジョンを拡張し,再定義し,再構築することを目的とした,研究のための新しい概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-08T07:08:19Z) - Culturally-Attuned Moral Machines: Implicit Learning of Human Value
Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。
AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。
本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-29T05:39:10Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Cultural Incongruencies in Artificial Intelligence [5.817158625734485]
我々は、AIベースの言語とビジョン技術の文脈において、文化的な依存関係と矛盾のセットについて説明する。
これらの技術が世界規模で多様な社会や文化と相互作用し、異なる価値と解釈の実践によって問題が発生する。
論文 参考訳(メタデータ) (2022-11-19T18:45:02Z) - An Analytics of Culture: Modeling Subjectivity, Scalability,
Contextuality, and Temporality [13.638494941763637]
文化とAIの間には双方向の関係があり、AIモデルは文化を分析するためにますます使われており、それによって文化に対する理解が形成される。
一方、これらのモデルでは、文化の表現を暗黙的に、常に正しく、暗黙的に学習する。
これにより、文化の分析にAIの使用を制限し、バイアスのような文化的な複雑な問題に関してAIの問題を引き起こす緊張が生じます。
論文 参考訳(メタデータ) (2022-11-14T15:42:27Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。