論文の概要: Towards a multi-stakeholder value-based assessment framework for
algorithmic systems
- arxiv url: http://arxiv.org/abs/2205.04525v1
- Date: Mon, 9 May 2022 19:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 01:39:38.476930
- Title: Towards a multi-stakeholder value-based assessment framework for
algorithmic systems
- Title(参考訳): アルゴリズムシステムのためのマルチstakeholder value-based assessment frameworkに向けて
- Authors: Mireia Yurrita, Dave Murray-Rust, Agathe Balayn, Alessandro Bozzon
- Abstract要約: 我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
- 参考スコア(独自算出の注目度): 76.79703106646967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an effort to regulate Machine Learning-driven (ML) systems, current
auditing processes mostly focus on detecting harmful algorithmic biases. While
these strategies have proven to be impactful, some values outlined in documents
dealing with ethics in ML-driven systems are still underrepresented in auditing
processes. Such unaddressed values mainly deal with contextual factors that
cannot be easily quantified. In this paper, we develop a value-based assessment
framework that is not limited to bias auditing and that covers prominent
ethical principles for algorithmic systems. Our framework presents a circular
arrangement of values with two bipolar dimensions that make common motivations
and potential tensions explicit. In order to operationalize these high-level
principles, values are then broken down into specific criteria and their
manifestations. However, some of these value-specific criteria are mutually
exclusive and require negotiation. As opposed to some other auditing frameworks
that merely rely on ML researchers' and practitioners' input, we argue that it
is necessary to include stakeholders that present diverse standpoints to
systematically negotiate and consolidate value and criteria tensions. To that
end, we map stakeholders with different insight needs, and assign tailored
means for communicating value manifestations to them. We, therefore, contribute
to current ML auditing practices with an assessment framework that visualizes
closeness and tensions between values and we give guidelines on how to
operationalize them, while opening up the evaluation and deliberation process
to a wide range of stakeholders.
- Abstract(参考訳): 機械学習駆動(ML)システムを規制するために、現在の監査プロセスは主に有害なアルゴリズムバイアスを検出することに焦点を当てている。
これらの戦略は影響があることが証明されているが、ML駆動システムにおける倫理を扱う文書に概説されているいくつかの価値は、監査プロセスにおいてまだ不足している。
このような未適応な値は、簡単に定量化できない文脈的要因を主に扱う。
本稿では,バイアス監査に限らず,アルゴリズムシステムに対する著名な倫理的原則をカバーする価値ベースの評価フレームワークを開発した。
我々の枠組みは、共通のモチベーションと潜在的な緊張を明示する2つの双極性次元を持つ値の円形配列を示す。
これらの高レベルの原則を運用するために、価値を特定の基準とマニフェストに分割する。
しかしながら、これらの価値特有な基準のいくつかは相互排他的であり、交渉を必要とする。
ML研究者や実践者の入力にのみ依存する他の監査フレームワークとは対照的に、価値と基準緊張を体系的に交渉・統合するための多様な視点を示す利害関係者を含める必要があると論じる。
そのために、ステークホルダーを異なる洞察のニーズでマッピングし、価値のマニフェストを伝えるための適切な手段を割り当てます。
したがって、我々は、価値間の近さと緊張を可視化するアセスメントフレームワークを用いて、現在のML監査の実践に貢献し、それらの運用方法に関するガイドラインを提示するとともに、幅広い利害関係者に評価と検討プロセスを開放する。
関連論文リスト
- DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Evaluating the Social Impact of Generative AI Systems in Systems and
Society [53.936980366906646]
我々は、任意のモダリティに対して生成AIシステムを評価するための標準的なアプローチに向かっている。
基礎技術システムにおいて、人や社会において、特定の社会的影響カテゴリと、どのようにアプローチし、どのように評価を行うかを説明する。
論文 参考訳(メタデータ) (2023-06-09T15:05:13Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Fairness in Contextual Resource Allocation Systems: Metrics and
Incompatibility Results [7.705334602362225]
本研究は、住宅を提供するホームレスサービスなど、基本的なニーズを満たすため、不足する資源を割り当てるシステムについて研究する。
これらの制度は、しばしば、体系的な人種、性別、その他の不正によって不当に影響を受けるコミュニティをサポートする。
本稿では,機械学習における公平度指標に触発された文脈的資源配分システムにおける公平性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T02:30:58Z) - How to Evaluate Explainability? -- A Case for Three Criteria [0.0]
我々は,システムが提供するべき情報に関する3つの品質基準について,多分野のモチベーションを提供する。
本研究の目的は, 適切な評価方法が考案されるなど, これらの基準に関する議論を加速させることである。
論文 参考訳(メタデータ) (2022-09-01T11:22:50Z) - A Framework for Auditing Multilevel Models using Explainability Methods [2.578242050187029]
回帰の技術的評価のための監査フレームワークを提案する。
焦点は3つの側面、モデル、差別、透明性と説明責任である。
SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
論文 参考訳(メタデータ) (2022-07-04T17:53:21Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。