論文の概要: Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection
- arxiv url: http://arxiv.org/abs/2501.15985v1
- Date: Mon, 27 Jan 2025 12:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:08.953175
- Title: Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection
- Title(参考訳): Demographic Benchmarking: バイアス検出にソシオテクノロジーのギャップを埋める
- Authors: Gemma Galdon Clavell, Rubén González-Sendino, Paola Vazquez,
- Abstract要約: 本稿では、ITTACA AI監査プラットフォームが、AIレコメンデータシステムの監査において、階層的ベンチマークにどのように取り組むかを説明する。
フレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の許容範囲を確立することができるので、監査役として役立ちます。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Artificial intelligence (AI) models are increasingly autonomous in decision-making, making pursuing responsible AI more critical than ever. Responsible AI (RAI) is defined by its commitment to transparency, privacy, safety, inclusiveness, and fairness. But while the principles of RAI are clear and shared, RAI practices and auditing mechanisms are still incipient. A key challenge is establishing metrics and benchmarks that define performance goals aligned with RAI principles. This paper describes how the ITACA AI auditing platform developed by Eticas.ai tackles demographic benchmarking when auditing AI recommender systems. To this end, we describe a Demographic Benchmarking Framework designed to measure the populations potentially impacted by specific AI models. The framework serves us as auditors as it allows us to not just measure but establish acceptability ranges for specific performance indicators, which we share with the developers of the systems we audit so they can build balanced training datasets and measure and monitor fairness throughout the AI lifecycle. It is also a valuable resource for policymakers in drafting effective and enforceable regulations. Our approach integrates socio-demographic insights directly into AI systems, reducing bias and improving overall performance. The main contributions of this study include:1. Defining control datasets tailored to specific demographics so they can be used in model training; 2. Comparing the overall population with those impacted by the deployed model to identify discrepancies and account for structural bias; and 3. Quantifying drift in different scenarios continuously and as a post-market monitoring mechanism.
- Abstract(参考訳): 人工知能(AI)モデルは意思決定において自律性が高まっており、責任あるAIを追求することがこれまで以上に重要になっている。
責任AI(Responsible AI, RAI)は、透明性、プライバシー、安全性、包括性、公正性へのコミットメントによって定義される。
しかし、RAIの原則は明確で共有されていますが、RAIのプラクティスと監査メカニズムはまだ初期段階にあります。
重要な課題は、RAI原則に沿ったパフォーマンス目標を定義するメトリクスとベンチマークを確立することです。
本稿では,Eticas.ai が開発した ITACA AI 監査プラットフォームについて述べる。
この目的のために、特定のAIモデルによって影響される可能性のある人口を測定するために設計されたDemographic Benchmarking Frameworkについて説明する。
このフレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の受け入れ範囲を確立するための監査役として役立ちます。監査対象のシステム開発者と共有することで、バランスのとれたトレーニングデータセットを構築し、AIライフサイクル全体を通じて公正さを測定し、監視することが可能になります。
また、政策立案者が効果的かつ施行可能な規制を起草する際にも貴重な資源である。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
本研究の主な貢献は以下のとおりである。
モデルトレーニングで使用できるように、特定の人口層に合わせて調整された制御データセットを定義する。
2 人口全体と、配置されたモデルによる影響とを比較して、相違点を特定し、構造的偏見を考慮に入れること。
3. 異なるシナリオにおけるドリフトの定量化を継続的に実施し、市場終了後の監視機構として活用する。
関連論文リスト
- Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。
ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。
我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文 参考訳(メタデータ) (2024-09-30T16:40:27Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。