論文の概要: A Comprehensive Framework to Operationalize Social Stereotypes for Responsible AI Evaluations
- arxiv url: http://arxiv.org/abs/2501.02074v1
- Date: Fri, 03 Jan 2025 19:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:18.052244
- Title: A Comprehensive Framework to Operationalize Social Stereotypes for Responsible AI Evaluations
- Title(参考訳): 社会的ステレオタイプを操作可能なAI評価のための包括的フレームワーク
- Authors: Aida Davani, Sunipa Dev, Héctor Pérez-Urbina, Vinodkumar Prabhakaran,
- Abstract要約: 社会的なステレオタイプは、責任あるAI介入の無数の中心にある。
生成AI評価におけるステレオタイプを運用するための統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.381034360289899
- License:
- Abstract: Societal stereotypes are at the center of a myriad of responsible AI interventions targeted at reducing the generation and propagation of potentially harmful outcomes. While these efforts are much needed, they tend to be fragmented and often address different parts of the issue without taking in a unified or holistic approach about social stereotypes and how they impact various parts of the machine learning pipeline. As a result, it fails to capitalize on the underlying mechanisms that are common across different types of stereotypes, and to anchor on particular aspects that are relevant in certain cases. In this paper, we draw on social psychological research, and build on NLP data and methods, to propose a unified framework to operationalize stereotypes in generative AI evaluations. Our framework identifies key components of stereotypes that are crucial in AI evaluation, including the target group, associated attribute, relationship characteristics, perceiving group, and relevant context. We also provide considerations and recommendations for its responsible use.
- Abstract(参考訳): 社会的なステレオタイプは、潜在的に有害な結果の生成と伝播を減らすことを目的とした、無数のAI介入の中心にある。
これらの取り組みは非常に必要だが、これらは断片化され、社会的なステレオタイプや機械学習パイプラインのさまざまな部分にどのように影響するかについて統一的あるいは包括的アプローチを取ることなく、問題のさまざまな部分に対処する傾向にある。
結果として、異なるタイプのステレオタイプに共通する基盤メカニズムに乗じることに失敗し、特定のケースで関係する特定の側面に固執する。
本稿では,NLPデータと手法に基づく社会心理学研究について考察し,ジェネレーティブAI評価におけるステレオタイプを運用するための統一的な枠組みを提案する。
本フレームワークは,対象グループ,関連属性,関係特性,知覚グループ,関連コンテキストなど,AI評価に不可欠なステレオタイプの主要なコンポーネントを識別する。
また、責任ある使用に対する考慮と勧告も提供します。
関連論文リスト
- The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
近年のAIの進歩は、科学的発見と意思決定支援において人間を支援できる技術をもたらしたが、民主主義と個人を妨害する可能性がある。
AIの責任ある使用は、ますます人間とAIのチームの必要性を示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Causal Responsibility Attribution for Human-AI Collaboration [62.474732677086855]
本稿では,人間のAIシステムにおける責任を体系的に評価するために,構造因果モデル(SCM)を用いた因果的枠組みを提案する。
2つのケーススタディは、多様な人間とAIのコラボレーションシナリオにおけるフレームワークの適応性を示している。
論文 参考訳(メタデータ) (2024-11-05T17:17:45Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - GRASP: A Disagreement Analysis Framework to Assess Group Associations in Perspectives [18.574420136899978]
本稿では,グループ関係を,異なるレーダサブグループ間の視点で測定するための総合的不一致分析フレームワークGRASPを提案する。
本フレームワークは,特定のタスクにおいて他と大きく異なる視点を持つ特定のレーダ群を明らかにし,特定のタスクコンテキストにおいて考慮すべき人口動態の同定を支援する。
論文 参考訳(メタデータ) (2023-11-09T00:12:21Z) - Anticipating Impacts: Using Large-Scale Scenario Writing to Explore
Diverse Implications of Generative AI in the News Environment [3.660182910533372]
我々は、ジェネレーティブAIの潜在的なネガティブな影響について、3つの利害関係者グループの展望を広げ、期待を捉えることを目的としている。
シナリオ記述と参加観を用いて、認知的に多様な未来の想像力を掘り下げる。
生成的AI影響評価のためのツールボックスとして,シナリオ記述と参加予測の有用性について論じる。
論文 参考訳(メタデータ) (2023-10-10T06:59:27Z) - From human-centered to social-centered artificial intelligence: Assessing ChatGPT's impact through disruptive events [1.1858896428516252]
機械学習研究コミュニティにおけるChatGPTの影響に対する批判は、そのパフォーマンスや、バイアス、毒性、"ハロシン化"に関連する従来の安全性評価に結びついている、と我々は主張する。
社会中心のフレームワークを通じてChatGPTの社会的影響を分析することで、AI開発における個人主義的アプローチに挑戦し、AIシステムの倫理的かつ責任ある展開に関する継続的な議論に貢献する。
論文 参考訳(メタデータ) (2023-05-31T22:46:48Z) - ACROCPoLis: A Descriptive Framework for Making Sense of Fairness [6.4686347616068005]
本研究では,アロケーションプロセスを表現するためのACROCPoLisフレームワークを提案する。
このフレームワークは、異なる状況や手順に対する公平性評価に関連する要因を明示する共有語彙を提供する。
論文 参考訳(メタデータ) (2023-04-19T21:14:57Z) - Fairness And Bias in Artificial Intelligence: A Brief Survey of Sources,
Impacts, And Mitigation Strategies [11.323961700172175]
この調査論文は、AIの公平性とバイアスに関する簡潔で包括的な概要を提供する。
我々は、データ、アルゴリズム、人間の決定バイアスなどのバイアス源をレビューする。
偏りのあるAIシステムの社会的影響を評価し,不平等の持続性と有害なステレオタイプの強化に着目した。
論文 参考訳(メタデータ) (2023-04-16T03:23:55Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。