Fugu-MT 論文翻訳(概要): Towards a multi-stakeholder value-based assessment framework for algorithmic systems

論文の概要: Towards a multi-stakeholder value-based assessment framework for algorithmic systems

arxiv url: http://arxiv.org/abs/2205.04525v1
Date: Mon, 9 May 2022 19:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-15 01:39:38.476930
Title: Towards a multi-stakeholder value-based assessment framework for algorithmic systems
Title（参考訳）: アルゴリズムシステムのためのマルチstakeholder value-based assessment frameworkに向けて
Authors: Mireia Yurrita, Dave Murray-Rust, Agathe Balayn, Alessandro Bozzon
Abstract要約: 我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
参考スコア（独自算出の注目度）: 76.79703106646967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In an effort to regulate Machine Learning-driven (ML) systems, current auditing processes mostly focus on detecting harmful algorithmic biases. While these strategies have proven to be impactful, some values outlined in documents dealing with ethics in ML-driven systems are still underrepresented in auditing processes. Such unaddressed values mainly deal with contextual factors that cannot be easily quantified. In this paper, we develop a value-based assessment framework that is not limited to bias auditing and that covers prominent ethical principles for algorithmic systems. Our framework presents a circular arrangement of values with two bipolar dimensions that make common motivations and potential tensions explicit. In order to operationalize these high-level principles, values are then broken down into specific criteria and their manifestations. However, some of these value-specific criteria are mutually exclusive and require negotiation. As opposed to some other auditing frameworks that merely rely on ML researchers' and practitioners' input, we argue that it is necessary to include stakeholders that present diverse standpoints to systematically negotiate and consolidate value and criteria tensions. To that end, we map stakeholders with different insight needs, and assign tailored means for communicating value manifestations to them. We, therefore, contribute to current ML auditing practices with an assessment framework that visualizes closeness and tensions between values and we give guidelines on how to operationalize them, while opening up the evaluation and deliberation process to a wide range of stakeholders.
Abstract（参考訳）: 機械学習駆動(ML)システムを規制するために、現在の監査プロセスは主に有害なアルゴリズムバイアスを検出することに焦点を当てている。これらの戦略は影響があることが証明されているが、ML駆動システムにおける倫理を扱う文書に概説されているいくつかの価値は、監査プロセスにおいてまだ不足している。このような未適応な値は、簡単に定量化できない文脈的要因を主に扱う。本稿では,バイアス監査に限らず,アルゴリズムシステムに対する著名な倫理的原則をカバーする価値ベースの評価フレームワークを開発した。我々の枠組みは、共通のモチベーションと潜在的な緊張を明示する2つの双極性次元を持つ値の円形配列を示す。これらの高レベルの原則を運用するために、価値を特定の基準とマニフェストに分割する。しかしながら、これらの価値特有な基準のいくつかは相互排他的であり、交渉を必要とする。 ML研究者や実践者の入力にのみ依存する他の監査フレームワークとは対照的に、価値と基準緊張を体系的に交渉・統合するための多様な視点を示す利害関係者を含める必要があると論じる。そのために、ステークホルダーを異なる洞察のニーズでマッピングし、価値のマニフェストを伝えるための適切な手段を割り当てます。したがって、我々は、価値間の近さと緊張を可視化するアセスメントフレームワークを用いて、現在のML監査の実践に貢献し、それらの運用方法に関するガイドラインを提示するとともに、幅広い利害関係者に評価と検討プロセスを開放する。

関連論文リスト

SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Bridging the Gap in XAI-Why Reliable Metrics Matter for Explainability and Compliance [2.3020018305241337]
この論文は、標準化された信頼性のあるメトリクスが欠如していることから、説明可能なAI(XAI)の評価における重要なギャップを強調している。現在の評価手法は、しばしば断片化され、主観的、偏見的であり、複雑なモデルの評価を操作し複雑にする傾向がある。我々は、堅牢で文脈に敏感な評価指標を開発するための広範な研究を提唱する。
論文参考訳（メタデータ） (2025-02-07T06:54:48Z)
Decoding AI Judgment: How LLMs Assess News Credibility and Bias [33.7054351451505]
大規模言語モデル(LLM)は、評価プロセスを含む言語にますます組み込まれています。これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。我々は、専門家評価(NewsGuardとMedia Bias/Fact Check(MBFC))と、制御された実験を通して収集された人間の判断に対する6つのLCMをベンチマークする。
論文参考訳（メタデータ） (2025-02-06T18:52:10Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文参考訳（メタデータ） (2024-10-17T15:40:09Z)
A Conceptual Framework for Ethical Evaluation of Machine Learning Systems [12.887834116390358]
倫理的意味は、機械学習システムの評価を設計する際に現れる。本稿では,倫理的評価における重要なトレードオフを,潜在的な倫理的害に対する情報ゲインのバランスとして特徴付けるユーティリティ・フレームワークを提案する。我々の分析は、倫理的な複雑さを意図的に評価し、管理する開発チームにとって重要な必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-05T01:06:49Z)
Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文参考訳（メタデータ） (2024-07-09T09:36:37Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Pragmatic auditing: a pilot-driven approach for auditing Machine Learning systems [5.26895401335509]
本稿では,欧州委員会が公表したAI-HLEGガイドラインを拡張する手順について述べる。監査手順は、ドキュメント、説明責任、品質保証を明確に重視するMLライフサイクルモデルに基づいています。 2つの異なる組織による実世界のユースケースで実施される2つのパイロットについて説明する。
論文参考訳（メタデータ） (2024-05-21T20:40:37Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
Fairness in Contextual Resource Allocation Systems: Metrics and Incompatibility Results [7.705334602362225]
本研究は、住宅を提供するホームレスサービスなど、基本的なニーズを満たすため、不足する資源を割り当てるシステムについて研究する。これらの制度は、しばしば、体系的な人種、性別、その他の不正によって不当に影響を受けるコミュニティをサポートする。本稿では,機械学習における公平度指標に触発された文脈的資源配分システムにおける公平性を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-04T02:30:58Z)
A Framework for Auditing Multilevel Models using Explainability Methods [2.578242050187029]
回帰の技術的評価のための監査フレームワークを提案する。焦点は3つの側面、モデル、差別、透明性と説明責任である。 SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
論文参考訳（メタデータ） (2022-07-04T17:53:21Z)
Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文参考訳（メタデータ） (2022-05-11T04:00:44Z)
Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。 QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文参考訳（メタデータ） (2021-06-01T14:11:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。