論文の概要: Towards Fair and Explainable AI using a Human-Centered AI Approach
- arxiv url: http://arxiv.org/abs/2306.07427v1
- Date: Mon, 12 Jun 2023 21:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:50:20.765225
- Title: Towards Fair and Explainable AI using a Human-Centered AI Approach
- Title(参考訳): 人間中心型AIアプローチによる公正かつ説明可能なAIを目指して
- Authors: Bhavya Ghai
- Abstract要約: 分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。
最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。
第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。
第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。
4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
- 参考スコア(独自算出の注目度): 5.888646114353372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of machine learning (ML) is accompanied by several high-profile
cases that have stressed the need for fairness, accountability, explainability
and trust in ML systems. The existing literature has largely focused on fully
automated ML approaches that try to optimize for some performance metric.
However, human-centric measures like fairness, trust, explainability, etc. are
subjective in nature, context-dependent, and might not correlate with
conventional performance metrics. To deal with these challenges, we explore a
human-centered AI approach that empowers people by providing more transparency
and human control.
In this dissertation, we present 5 research projects that aim to enhance
explainability and fairness in classification systems and word embeddings. The
first project explores the utility/downsides of introducing local model
explanations as interfaces for machine teachers (crowd workers). Our study
found that adding explanations supports trust calibration for the resulting ML
model and enables rich forms of teaching feedback. The second project presents
D-BIAS, a causality-based human-in-the-loop visual tool for identifying and
mitigating social biases in tabular datasets. Apart from fairness, we found
that our tool also enhances trust and accountability. The third project
presents WordBias, a visual interactive tool that helps audit pre-trained
static word embeddings for biases against groups, such as females, or
subgroups, such as Black Muslim females. The fourth project presents DramatVis
Personae, a visual analytics tool that helps identify social biases in creative
writing. Finally, the last project presents an empirical study aimed at
understanding the cumulative impact of multiple fairness-enhancing
interventions at different stages of the ML pipeline on fairness, utility and
different population groups. We conclude by discussing some of the future
directions.
- Abstract(参考訳): 機械学習(ML)の台頭には、公正性、説明責任、説明可能性、MLシステムの信頼の必要性を強調したいくつかの著名なケースが伴っている。
既存の文献は、パフォーマンスメトリクスを最適化しようとする、完全に自動化されたMLアプローチに重点を置いている。
しかしながら、公正さ、信頼、説明可能性などの人間中心の尺度は、本質的には、文脈依存であり、従来のパフォーマンス指標と相関しないかもしれない。
これらの課題に対処するために、より透明性と人的コントロールを提供することで、人々を力づける人間中心のaiアプローチを探求する。
本稿では,分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトを提案する。
最初のプロジェクトは、ローカルモデル説明を機械教師(クローブワーカー)のインターフェイスとして導入するユーティリティ/ダウンサイドを探求する。
そこで本研究では,MLモデルの信頼性校正を支援する説明を加えることで,リッチな教示フィードバックを実現することを試みた。
第2のプロジェクトは、因果関係に基づくヒューマン・イン・ザ・ループ・ビジュアルツールであるD-BIASを提示する。
公平性とは別に、私たちのツールは信頼性と説明責任も向上します。
第三のプロジェクトはWordBiasというビジュアルインタラクティブなツールで、女性のようなグループや、黒人ムスリムの女性のようなサブグループに対する偏見に対する、事前訓練された静的な単語埋め込みの監査を支援する。
第4のプロジェクトはDramatVis Personaeというビジュアル分析ツールで、クリエイティブな執筆における社会的偏見を識別する。
最後に、MLパイプラインの様々な段階における複数のフェアネス・エンハンシング介入が、フェアネス、ユーティリティ、および異なる人口集団に対する累積的影響を理解することを目的とした実証的研究を示す。
今後の方向性を議論することで締めくくります。
関連論文リスト
- Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - TIDE: Textual Identity Detection for Evaluating and Augmenting
Classification and Language Models [0.0]
機械学習モデルは、不公平で不均衡なデータセットから意図しないバイアスを永続することができる。
分類器と言語モデルにおけるテキストの公平性を改善するためのアプローチと組み合わせたデータセットを提案する。
我々は、IDコンテキストの可用性向上に使用できるIDアノテーションと拡張ツールを開発するために、TIDALを活用している。
論文 参考訳(メタデータ) (2023-09-07T21:44:42Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Towards Involving End-users in Interactive Human-in-the-loop AI Fairness [1.889930012459365]
人工知能(AI)における公正性の確保は、遠縁な応用においてバイアスや差別に対処するために重要である。
最近の研究は、人間が公正さを判断する方法と、AIモデルを公平にするために機械学習の専門家(ML)をサポートする方法について調査し始めている。
我々の研究は、通常のエンドユーザが潜在的公正性の問題を特定することができる、解釈可能でインタラクティブなヒューマン・イン・ザ・ループ・インタフェースの設計について検討している。
論文 参考訳(メタデータ) (2022-04-22T02:24:11Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - FAIR: Fair Adversarial Instance Re-weighting [0.7829352305480285]
本研究では,公正な予測を確実にするインスタンス重み付け関数の学習に敵対的トレーニングを利用するFair Adrial Instance Re-weighting(FAIR)手法を提案する。
我々の知る限りでは、これは、個々のインスタンスの公平性に関する解釈可能な情報を提供する重み付け関数によって、再重み付けと逆方向のアプローチをマージする最初のモデルである。
論文 参考訳(メタデータ) (2020-11-15T10:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。