Fugu-MT 論文翻訳(概要): Rethinking AI Cultural Evaluation

論文の概要: Rethinking AI Cultural Evaluation

arxiv url: http://arxiv.org/abs/2501.07751v1
Date: Mon, 13 Jan 2025 23:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.330913
Title: Rethinking AI Cultural Evaluation
Title（参考訳）: AI文化評価の再考
Authors: Michal Bravansky, Filip Trhlik, Fazl Barez,
Abstract要約: 現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。 MCQを超えて、よりオープンな、コンテキスト固有のアセスメントを採用することをお勧めします。
参考スコア（独自算出の注目度）: 1.8434042562191815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI systems become more integrated into society, evaluating their capacity to align with diverse cultural values is crucial for their responsible deployment. Current evaluation methods predominantly rely on multiple-choice question (MCQ) datasets. In this study, we demonstrate that MCQs are insufficient for capturing the complexity of cultural values expressed in open-ended scenarios. Our findings highlight significant discrepancies between MCQ-based assessments and the values conveyed in unconstrained interactions. Based on these findings, we recommend moving beyond MCQs to adopt more open-ended, context-specific assessments that better reflect how AI models engage with cultural values in realistic settings.
Abstract（参考訳）: AIシステムが社会にさらに統合されるにつれて、さまざまな文化的価値と整合する能力を評価することが、責任を負うデプロイメントに不可欠である。現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。本研究では,MCQがオープンエンドシナリオで表現される文化的価値の複雑さを捉えるには不十分であることを実証する。本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。これらの結果に基づいて、我々はMCQを超えて、AIモデルが現実的な環境で文化的な価値とどのように関わるかをより良く反映した、よりオープンな文脈特異的な評価を採用することを推奨します。

関連論文リスト

Cultural Alien Sampler: Open-ended art generation balancing originality and coherence [77.30507101341111]
本稿では,文化的な典型から構成的適合を分離する概念選択手法である文化異性サンプリング(CAS)を紹介する。 CASは、コヒーレンスが高く、典型性が低い組み合わせをターゲットにしており、学習慣行や組み込み文化の文脈から逸脱しながら内部の一貫性を維持するアイデアを生み出している。
論文参考訳（メタデータ） (2025-10-21T09:32:46Z)
Against 'softmaxing' culture [0.21756081703275998]
私はこの現象を「ソフトマックス文化」と呼び、今日のAI評価に直面する根本的な課題の1つです。まず、システム評価の開始時に「文化とは何か?」と尋ねる代わりに、「文化とは何か?」という問いから始めます。私は、文化的普遍性が存在するという哲学的主張を認めていますが、その課題は単にそれらを記述することではなく、それらの特質に関してそれらを満たすことです。
論文参考訳（メタデータ） (2025-06-28T17:59:17Z)
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。 CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文参考訳（メタデータ） (2025-01-02T14:42:37Z)
ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
ValuesRAGは、テキスト生成中に文化的および人口統計学的知識を動的に統合するフレームワークである。主実験およびアブレーション研究において、ベースライン法を一貫して上回る。文化的に整合したAIシステムを育み、AI駆動型アプリケーションの傾きを高めることができる。
論文参考訳（メタデータ） (2025-01-02T03:26:13Z)
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [50.38159901496538]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
論文参考訳（メタデータ） (2024-12-04T13:27:09Z)
Aligning Generalisation Between Humans and Machines [74.120848518198]
近年のAIの進歩は、科学的発見と意思決定支援において人間を支援できる技術をもたらしたが、民主主義と個人を妨害する可能性がある。 AIの責任ある使用は、ますます人間とAIのチームの必要性を示している。これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文参考訳（メタデータ） (2024-11-23T18:36:07Z)
LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output [8.435090588116973]
LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
論文参考訳（メタデータ） (2024-11-09T01:38:55Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
How Culture Shapes What People Want From AI [0.0]
文化的に多様なグループの視点をAI開発に組み込む必要がある。我々は,AIの主流となるビジョンを拡張し,再定義し,再構築することを目的とした,研究のための新しい概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-03-08T07:08:19Z)
Culturally-Attuned Moral Machines: Implicit Learning of Human Value Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。 AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文参考訳（メタデータ） (2023-12-29T05:39:10Z)
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。統計的学習者として、AIシステムはデフォルトで平均に適合する。 ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文参考訳（メタデータ） (2023-09-02T01:24:59Z)
Cultural Incongruencies in Artificial Intelligence [5.817158625734485]
我々は、AIベースの言語とビジョン技術の文脈において、文化的な依存関係と矛盾のセットについて説明する。これらの技術が世界規模で多様な社会や文化と相互作用し、異なる価値と解釈の実践によって問題が発生する。
論文参考訳（メタデータ） (2022-11-19T18:45:02Z)
An Analytics of Culture: Modeling Subjectivity, Scalability, Contextuality, and Temporality [13.638494941763637]
文化とAIの間には双方向の関係があり、AIモデルは文化を分析するためにますます使われており、それによって文化に対する理解が形成される。一方、これらのモデルでは、文化の表現を暗黙的に、常に正しく、暗黙的に学習する。これにより、文化の分析にAIの使用を制限し、バイアスのような文化的な複雑な問題に関してAIの問題を引き起こす緊張が生じます。
論文参考訳（メタデータ） (2022-11-14T15:42:27Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。