論文の概要、ライセンス

# (参考訳) 機械学習実践における評価ギャップ [全文訳有]

Evaluation Gaps in Machine Learning Practice ( http://arxiv.org/abs/2205.05256v1 )

ライセンス: CC BY 4.0
Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller, Vinodkumar Prabhakaran(参考訳) 機械学習(ML)モデルのアプリケーションエコシステムに対する適切性に対する信頼性の高い判断を形成することは、その責任を負う上で重要であり、害、利益、責任を含む幅広い要因を検討する必要がある。 しかし実際には、MLモデルの評価は、限られた範囲の非文脈化予測行動のみに焦点を当てることが多い。 評価対象の理想化範囲と実際の評価対象の狭間における評価ギャップについて検討した。 コンピュータビジョンと自然言語処理のコミュニティにおける最近の著名なカンファレンスの論文の実証研究を通じて、我々はいくつかの評価手法に焦点をあてた。 これらの手法で使用されるメトリクスとテストデータ分布を考慮し、フィールドにどの特性が集中しているかを注意し、評価中に頻繁に無視されるか、あるいは傍観される性質を明らかにする。 これらの特性を研究することで、機械学習分野が規範的な影響を持つコミットメントの範囲を暗黙的に仮定することを示し、これには連続性へのコミットメント、文脈からの抽象可能性、影響の定量性、評価におけるモデル入力の限られた役割、異なる障害モードの等価性が含まれる。 これらの仮定に光を当てることで、MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を指して、MLシステムコンテキストに対する彼らの適切性に疑問を呈することができる。

Forming a reliable judgement of a machine learning (ML) model's appropriateness for an application ecosystem is critical for its responsible use, and requires considering a broad range of factors including harms, benefits, and responsibilities. In practice, however, evaluations of ML models frequently focus on only a narrow range of decontextualized predictive behaviours. We examine the evaluation gaps between the idealized breadth of evaluation concerns and the observed narrow focus of actual evaluations. Through an empirical study of papers from recent high-profile conferences in the Computer Vision and Natural Language Processing communities, we demonstrate a general focus on a handful of evaluation methods. By considering the metrics and test data distributions used in these methods, we draw attention to which properties of models are centered in the field, revealing the properties that are frequently neglected or sidelined during evaluation. By studying these properties, we demonstrate the machine learning discipline's implicit assumption of a range of commitments which have normative impacts; these include commitments to consequentialism, abstractability from context, the quantifiability of impacts, the limited role of model inputs in evaluation, and the equivalence of different failure modes. Shedding light on these assumptions enables us to question their appropriateness for ML system contexts, pointing the way towards more contextualized evaluation methodologies for robustly examining the trustworthiness of ML models
公開日: Wed, 11 May 2022 04:00:44 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
BEN HUTCHINSON, Google Research, Australia NEGAR ROSTAMZADEH, Google Research, Canada CHRISTINA GREER, Google Research, USA KATHERINE HELLER, Google Research, USA VINODKUMAR PRABHAKARAN, Google Research, USA BEN HUTCHINSON, Google Research, Australia NEGAR ROSTAMZADEH, Google Research, Canada CHRISTINA GREER, Google Research, USA KATHERINE HELLER, Google Research, USA VINODKUMAR PRABHakaRAN, USA, Google Research 0.42
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] G L . s c [ ] G L。 sc [ 0.47
1 v 6 5 2 5 0 1 v 6 5 2 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Forming a reliable judgement of a machine learning (ML) model’s appropriateness for an application ecosystem is critical for its responsible use, and requires considering a broad range of factors including harms, benefits, and responsibilities. 機械学習(ML)モデルのアプリケーションエコシステムに対する適切性に対する信頼性の高い判断を形成することは、その責任ある使用のために重要であり、害、利益、責任を含む幅広い要因を検討する必要がある。 0.75
In practice, however, evaluations of ML models frequently focus on only a narrow range of decontextualized predictive behaviours. しかし実際には、MLモデルの評価は、限られた範囲の非文脈化予測行動のみに焦点を当てることが多い。 0.62
We examine the evaluation gaps between the idealized breadth of evaluation concerns and the observed narrow focus of actual evaluations. 評価対象の理想化範囲と実際の評価対象の狭間における評価ギャップについて検討した。 0.76
Through an empirical study of papers from recent high-profile conferences in the Computer Vision and Natural Language Processing communities, we demonstrate a general focus on a handful of evaluation methods. コンピュータビジョンと自然言語処理のコミュニティにおける最近の著名なカンファレンスの論文の実証研究を通じて、我々はいくつかの評価手法に焦点をあてた。
訳抜け防止モード: コンピュータビジョンと自然言語処理コミュニティにおける近年のハイプロファイル会議論文の実証研究を通して 我々は,いくつかの評価手法に一般的な焦点をあてる。
0.82
By considering the metrics and test data distributions used in these methods, we draw attention to which properties of models are centered in the field, revealing the properties that are frequently neglected or sidelined during evaluation. これらの手法で使用されるメトリクスとテストデータ分布を考慮し、フィールドにどの特性が集中しているかを注意し、評価中に頻繁に無視されるか、あるいは傍観される性質を明らかにする。 0.71
By studying these properties, we demonstrate the machine learning discipline’s implicit assumption of a range of commitments which have normative impacts; these include commitments to consequentialism, abstractability from context, the quantifiability of impacts, the limited role of model inputs in evaluation, and the equivalence of different failure modes. これらの特性を研究することで、機械学習分野が規範的な影響を持つコミットメントの範囲を暗黙的に仮定していることが示される。これには、連続性へのコミットメント、文脈からの抽象可能性、影響の定量化可能性、評価におけるモデル入力の役割の制限、異なる障害モードの等価性が含まれる。
訳抜け防止モード: これらの特性を研究することで、規範的な影響を持つ様々なコミットメントに対する機械学習分野の暗黙の仮定を実証する。 文脈からの抽象可能性、影響の定量化可能性、評価におけるモデル入力の役割の制限。 そして 異なる障害モードの 等価性。
0.69
Shedding light on these assumptions enables us to question their appropriateness for ML system contexts, pointing the way towards more contextualized evaluation methodologies for robustly examining the trustworthiness of ML models. これらの仮定に光を当てることで、MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を指して、MLシステムコンテキストに対する彼らの適切性に疑問を呈することができる。
訳抜け防止モード: これらの前提に光を放つ MLシステムコンテキストに対するそれらの適切性に疑問を呈することができる。 MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を示す。
0.57
CCS Concepts: • Computing methodologies → Machine learning approaches. CCS概念: • 計算方法論 → 機械学習アプローチ。 0.85
Additional Key Words and Phrases: machine learning, evaluation, applications 追加のキーワードとフレーズ:機械学習、評価、応用 0.79
ACM Reference Format: Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller, and Vinodkumar Prabhakaran. ACM参照フォーマット: Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller, Vinodkumar Prabhakaran。 0.75
2022. Evaluation Gaps in Machine Learning Practice. 2022. 機械学習の実践における評価ギャップ。 0.58
In 2022 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’22), June 21–24, 2022, Seoul, Republic of Korea. 2022年6月21-24日、大韓民国ソウルの公正、説明責任、透明性に関するACM会議(FAccT'22)。 0.73
ACM, New York, NY, USA, 28 pages. ACM, New York, NY, USA, 28ページ。 0.79
https://doi.org/10.1 145/3531146.3533233 https://doi.org/10.1 145/3531146.3533233 0.15
1 INTRODUCTION When evaluating a machine learning (ML) model for real-world uses, two fundamental questions arise: Is this ML model good (enough)? 1 実世界の使用のために機械学習(ML)モデルを評価するとき、2つの根本的な疑問が生じる。 0.65
and Is this ML model better than some alternative? このMLモデルは、他のモデルよりも優れているのでしょうか? 0.54
Obtaining reliable answers to these questions can be consequential for safety, fairness, and justice concerns in the deployment ecosystems. これらの質問に対する信頼できる回答を得ることは、デプロイメントエコシステムにおける安全性、公平性、正義の懸念に対して、極めて重要である。 0.49
To address such questions, model evaluations use a variety of methods, and in doing so make technical and normative assumptions that are not always explicit. そのような問題に対処するために、モデル評価は様々な方法を使い、そうすることで必ずしも明確ではない技術的かつ規範的な仮定を作る。 0.63
These implicit assumptions can obscure the presence of epistemic gaps and motivations in the model evaluations, which, if not identified, constitute risky unknown unknowns. これらの暗黙の仮定は、モデル評価における認識的ギャップやモチベーションの存在を曖昧にする可能性がある。 0.54
Recent scholarship has critiqued the ML community’s evaluation practices, focusing on the use of evaluation benchmarks and leaderboards. 最近の奨学金は、評価ベンチマークとリーダーボードの使用に焦点を当て、MLコミュニティの評価プラクティスを批判している。 0.61
Although leaderboards support the need of the discipline to iteratively optimize for リーダーボードは反復的に最適化する規律の必要性を支持していますが 0.55
Permission to make digital or hard copies of part or all of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. デジタル又はハード又はこの作品の一部又は全部を個人または教室で使用するための許可は、その複製が利益または商業上の利益のために作成、配布されず、かつ、この通知と第1ページの全引用を添付して、手数料なしで与えられる。
訳抜け防止モード: この作品の一部又は全部のデジタル又はハードコピーを個人または教室での使用許可 手数料なしで与えられます 利益や商業上の利益のためにコピーは作られない そのコピーには この通知と 最初のページの全文が書かれています
0.84
Copyrights for third-party components of this work must be honored. この作品のサードパーティコンポーネントの著作権を尊重しなければならない。 0.59
For all other uses, contact the owner/author(s). 他のすべての用途について、オーナー/著者に連絡してください。 0.47
© 2022 Copyright held by the owner/author(s). 第2022条 所有者/著者が保持する著作権。 0.60
Manuscript submitted to ACM ACMに提出された写本 0.63
1 1 0.43
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
accuracy, they neglect concerns such as inference latency, robustness, and externalities [51]. 正確性 推論遅延、堅牢性、外部性といった懸念を無視しています [51]。 0.67
The structural incentives of the “competition mindset” encouraged by leaderboards can pose challenges to empirical rigor [153]. リーダーボードが奨励する“競争マインドセット”の構造的なインセンティブは、経験的な厳格さに挑戦する[153]。 0.64
For example, over-reliance on a small number of evaluation metrics can lead to gaming the metric (cf. Goodhart’s Law “when a measure becomes a target, it ceases to be a good measure”) [161]; this can happen unintentionally as researchers pursue models with “state-of-the-art” performance. 例えば、少数の評価基準への過度な依存は、メトリクスのゲームに繋がる可能性がある(cf. goodhartの法則“指標が目標になるとき、それは良い尺度ではない”) [161]; 研究者が“最先端”のパフォーマンスを持つモデルを追い求めると、これは意図せずに起こる可能性がある。 0.65
Benchmarks that encourage narrowly optimizing for test set accuracy can also lead to models relying on spurious signals [31], while neglecting the challenge of measuring the full range of likely harms [22]. テストセットの精度を狭く最適化することを奨励するベンチマークは、スプリアスシグナル[31]に依存するモデルにもつながります。
訳抜け防止モード: テストセットの精度を狭く最適化することを奨励するベンチマークは、スプリアスシグナル [31 ] に依存するモデルにつながる可能性がある。 危害のありそうな範囲を 全て測ることの難しさを 無視しながら。 [22]
0.66
Birhane et al find evidence for this in their study of the discourse of ML papers, showing that the field centers accuracy, generalization, and novelty, while marginalizing values such as safety [18]. birhaneらは、ml論文の談話の研究において、この分野が正確性、一般化、新規性の中心でありながら、安全性などの限界値であることを示す証拠を見つける[18]。 0.55
Given that benchmark evaluations serve as proxies for performance on underlying abstract tasks [151], evaluating against a range of diverse benchmarks for each task might help mitigate biases within each benchmark. ベンチマーク評価が基礎となる抽象タスクのパフォーマンスのプロキシとして機能する [151] を考えると、各タスクのさまざまなベンチマークに対する評価は、各ベンチマーク内のバイアスを軽減するのに役立つかもしれない。 0.57
However, ML research disciplines seem to be trending towards relying on fewer evaluation benchmark datasets [93], with test set reuse potentially leading to a research community’s overfitting with respect to the general task [103, 177]. しかし、ml研究の分野は、テストセットの再利用が一般的なタスク([103, 177])に対する研究コミュニティの過剰フィットにつながる可能性があるため、より少ない評価ベンチマークデータセット(93])に依存する傾向があります。 0.72
Furthermore, within each benchmark, items are weighted equally (thus focusing on the head of the data distribution), failing to capture inherent differences in difficulty across items, and hence providing poor measures of progress on task performance [141]. さらに、各ベンチマークでは、項目を均等に重み付けし(データ分布の先頭にフォーカスする)、項目間の難易度に固有の違いを捉えることができず、タスクパフォーマンスの進歩度が低くなる[141]。 0.63
As Raji et al point out, the ML research discipline’s decontextualized and non-systematic use of benchmark data raises serious issues with regards to the validity of benchmarks as measures of progress on general task performance [135]. Raji氏らが指摘するように、ML研究分野の非コンテキスト化および非体系的なベンチマークデータの使用は、一般的なタスクパフォーマンスの進歩の尺度としてのベンチマークの有効性に関して深刻な問題を引き起こす[135]。 0.60
This paper complements and extends this range of critiques, considering the risks of application developers adopting the ML research community’s standard evaluation methodologies. 本稿では、ML研究コミュニティの標準評価手法を採用するアプリケーション開発者のリスクを考慮して、この範囲の批判を補完し、拡張する。 0.70
We seek to address challenges in measuring technology readiness (tram) [104, 140], while acknowledging this cannot be reduced to a purely technical question [43, 140]. 我々は、技術即応性(tram) [104, 140] の課題に対処しようとするが、これは純粋に技術的な問題 [43, 140] に還元できないと認めている。 0.80
By studying and analyzing the ML research community’s evaluation practices, we draw attention to the evaluation gaps between ideal theories of evaluation and what is observed in ML research. ML研究コミュニティの評価実践を研究・分析することにより,評価の理想的な理論とML研究で観察されるものとの間にある評価ギャップに注意を向ける。 0.85
By considering aspects of evaluation data and evaluation metrics—as well as considerations of evaluation practices such as error analysis and reporting of error bars—we highlight the discrepancies between the model quality signals reported by the research community and what is relevant to real-world model use. 評価データと評価指標の側面(エラー分析やエラーバーの報告など評価プラクティスの考察)を考慮し、研究コミュニティが報告したモデル品質信号と実世界のモデル利用に関連するものとの相違点を明らかにする。 0.86
Our framework for analyzing the gaps builds upon and complements other streams of work on ML evaluation practices, including addressing distribution shifts between development data and application data [34, 94, 160], and robustness to perturbations in test items [118, 132, 173? ]. 開発データとアプリケーションデータ [34, 94, 160] の分散シフトや,テスト項目 [118, 132, 173?] における摂動に対する堅牢性など,ml評価プラクティスに関する他の作業の流れを解析し補完するフレームワークを構築した。 0.78
We situate this work alongside studies of the appropriateness of ML evaluation metrics (e g , [47, 88, 177]), noting that reliable choice of metric is often hampered by unclear goals [44, 97]. この研究は、ML評価指標(例: [47, 88, 177])の適切性の研究と合わせて、メトリクスの信頼性の高い選択は、しばしば不明確な目標 [44, 97] によって妨げられることを指摘する。 0.70
In foregrounding the information needs of application developers, we are also aligned with calls for transparent reporting of ML model evaluations [117], prioritizing needs of ML fairness practitioners [77], model auditing practices [136], and robust practices for evaluating ML systems for production readiness [23]. アプリケーション開発者の情報ニーズを予見するためには、MLモデル評価の透過的な報告[117]、MLフェアネス実践者のニーズの優先順位付け[77]、モデル監査プラクティス[136]、生産準備のためのMLシステム評価のための堅牢なプラクティス[23]も必要です。 0.77
In Section 2, we consider various ideal goals that motivate why ML models are evaluated, discussing how these goals can differ between research contexts and application contexts. 第2節では、MLモデルがなぜ評価されるのかを動機とする様々な理想的な目標を検討し、これらの目標が研究コンテキストとアプリケーションコンテキストとどのように異なるかについて議論する。
訳抜け防止モード: 第2節では、MLモデルの評価の動機となる様々な理想的目標について考察する。 これらの目標が研究コンテキストとアプリケーションコンテキストとどのように異なるかについて議論する。
0.59
We then report in Section 3 on an empirical study into how machine learning research communities report model evaluations. 次に,機械学習研究コミュニティによるモデル評価の報告方法に関する実証研究について,第3節で報告する。 0.66
By comparing the ideal goals of evaluation with the observed evaluation trends in our study, we highlight in Section 4 the evaluation gaps that present challenges to evaluations being good proxies for what application developers really care about. 本研究は,評価の理想的な目標と観察された評価傾向を比較することで,アプリケーション開発者が本当に関心を持っているものに対する適切なプロキシである評価に対する課題を示す評価ギャップを,第4節で強調する。 0.69
We identify six implicit evaluation assumptions that could account for the presence of these gaps. これらのギャップの存在を考慮に入れうる6つの暗黙的な評価仮定を同定する。 0.63
Finally, in Section 5, we discuss various techniques and methodologies that may help to mitigate these gaps. 最後に第5節では,これらのギャップを緩和するための様々な手法と方法論について論じる。 0.71
2 IDEALS OF ML MODEL EVALUATION MLモデル評価の2つの試み 0.68
Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise. 間違った質問に対する正確な答えよりも、しばしば曖昧である正しい質問に対する近似的な回答の方がずっと良い。
訳抜け防止モード: 正しい質問に対する近似的な答えの方がずっと良いが、しばしば曖昧である。 間違った質問に対する正確な答えよりも 常に正確です
0.75
— John Tukey [162, pp. 13–14] -ジョン・テューキー [162, pp. 13-14] 0.67
2 2 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Fig. 1. Learner-centric ML model evaluations are concerned with the learner and its environment. 図1。 学習者中心のMLモデル評価は学習者とその環境に関するものである。 0.47
Application-centric model evaluations are concerned with how the model will interact with an ecosystem into which it is introduced. アプリケーション中心のモデル評価は、モデルが導入されるエコシステムとどのように相互作用するかに関するものだ。 0.74
Although this paper is ultimately concerned with practical information needs when evaluating ML models for use in applications, it is useful to first step back and consider the ultimate motivations and goals of model evaluation. 本論文は、アプリケーションで使用するmlモデルを評価する際の実用的情報ニーズに究極的に関係するが、モデル評価の究極の動機と目標を第一に振り返って考えることは有用である。 0.73
To evaluate is to form a judgement; however, asking Is this a good ML model? 評価は判断を形成することですが、これは優れたMLモデルなのでしょうか? 0.77
is akin to asking such a question of other artefacts—such as Is this a good glass? 他の工芸品についてこんな質問をするのに似ていますか? 0.52
—in that it requires acknowledging the implicit semantic arguments of uses and goals [134]. つまり、使用と目標の暗黙のセマンティック引数 [134] を認識する必要がある。 0.78
For example, Is this a good glass [for my toddler to drink from, given that I want to avoid broken glass]? 例えば、これは、壊れたガラスを避けたいという理由で、幼児が飲むのによいガラスですか? 0.71
is a very different question from Is this a good glass [in which to serve wine to my boss, given that I want to impress them]? これは、私の上司にワインを提供する良いグラスなのでしょうか?
訳抜け防止モード: これは私の上司にワインを提供するのによいガラスなのか? 私が彼らを感動させたいと思うことを考えると?
0.76
In this paper, we will speak of a model evaluation as a system of arbitrary structure that takes a model as an input and produces outputs of some form to judge the model. 本稿では,モデルを入力として,何らかの形式の出力を生成して判断する任意の構造のシステムとしてのモデル評価について述べる。 0.88
Designing a model evaluation often involves choosing one or more evaluation metrics (such as accuracy) combined with a choice of test data. モデル評価を設計するには、1つ以上の評価指標(精度など)とテストデータの選択を組み合わせることが必要となる。 0.81
The evaluation might be motivated by various stakeholder perspectives and interests [91]. 評価は様々な利害関係者の視点や関心に動機づけられる可能性がある[91]。 0.70
The output might, for example, produce a single metric and an associated numeric value, or a table of such metrics and values; it might include confidence intervals and significance tests on metric values; and it might include text. 出力は、例えば、単一のメートル法と関連する数値、またはそのようなメートル法と値の表を生成するかもしれない。
訳抜け防止モード: 出力は、例えば、単一のメートル法を生成するかもしれない そして関連する数値、またはそのようなメトリクスと値の表 信頼区間とメートル法値の重要度テストを含み、テキストを含むこともある。
0.85
By producing such an output, the evaluation helps to enable transparency by reducing the number of both unknown unknowns and known unknowns. このような出力を生成することで、未知の未知数と未知の未知数の両方を減らすことにより、透明性を実現することができる。
訳抜け防止モード: このような出力を生成することで、評価が役立ちます 未知の未知と未知の未知の数を減らして透明性を実現する。
0.72
For the purposes of this paper, it is useful to distinguish between two types of evaluations: 本論文の目的は,2種類の評価を区別することである。 0.63
Learner-centric. An ML model evaluation system useful for evaluating the learner (i.e., machine learning algorithm). 学習中心。 学習者(機械学習アルゴリズム)を評価するのに有用なMLモデル評価システム。 0.52
Application-centric. アプリケーション中心。 0.30
An ML model evaluation system useful for evaluating a potential application. 潜在的なアプリケーションを評価するのに有用なMLモデル評価システム。 0.76
Learner-centric evaluations make conclusions about the quality of the learner or its environment based on the evaluation of the learned model. 学習者中心の評価は、学習モデルの評価に基づいて学習者またはその環境の品質について結論を出す。 0.75
These including evaluations motivated by novel learning algorithms or model architectures, but also ones that これらには、新しい学習アルゴリズムやモデルアーキテクチャによって動機付けられた評価も含まれている。
訳抜け防止モード: これらは、新しい学習アルゴリズムやモデルアーキテクチャによる評価を含む。 それだけでなく
0.78
a) aim to shed light on the training data (for example ML model evaluations can shed light on the data-generation practices used by institutions [5]), or a) トレーニングデータに光を当てること(例えば、mlモデルの評価は、機関が使用するデータ生成プラクティスに光を当てることができる [5]) 0.74
b) “Green AI” explorations of how the learner can efficiently use limited amounts of resources [152]. b) “green ai” 学習者が限られた量のリソースを効率的に利用できる方法を探求する[152]。 0.77
However, when we evaluate a model without a specific application in mind, we lose the opportunity to form judgements specific to a use case. しかし、特定のアプリケーションを念頭に置いてモデルを評価すると、ユースケースに特有の判断を形成する機会を失います。 0.70
On the other hand, application-centric evaluations are concerned with how the model will operate within an ecosystem consisting of both human agents and technical components (Figure 1), sometimes described as the “ecological validity” [46]. 一方、アプリケーション中心の評価は、人間エージェントと技術コンポーネントの両方からなるエコシステム内でモデルがどのように機能するかに関係している(第1図)。
訳抜け防止モード: 一方、アプリケーション中心の評価は、モデルがどのようにエコシステム内で機能するかに関係している。 ヒューマンエージェントと技術コンポーネント(図1 )の両方で、しばしば「生態的妥当性」 [46 ] と表現される。
0.72
Applications often use scores output by the model to initiate discrete actions or decisions, by applying a specific classification threshold to the scores.1 アプリケーションは、スコアに特定の分類しきい値を適用することによって、モデルによって出力されるスコアを使用して、個別のアクションや決定を開始することが多い。
訳抜け防止モード: アプリケーションはしばしば、個別のアクションや決定を開始するために、モデルによって出力されるスコアを使用します。 特定の分類基準を スコアに当てることで
0.52
In contrast, learner-centric evaluations sometimes care about scores output by models even in the absence of any thresholds. 対照的に、学習者中心の評価は、しきい値がなくてもモデルによって出力されるスコアを気にすることがある。 0.50
1The history of this type of use case extends beyond ML models, e g , to the use of regression models in university admissions testing [81]. 1 この種のユースケースの歴史は、mlモデルを超えて、例えば、大学入学試験における回帰モデルの使用にまで及んでいる [81]。 0.77
3 3 0.42
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
Typical evaluation goal Distinguish better learners from poorer ones Schematic of goal Disciplinary goals 典型的な評価目標 より貧しい者からより良い学習者を区別する 目標のシマティクス ディシプリナリーゴール 0.71
Science or engineering Learner-centric evaluations 科学または工学 学習中心の評価 0.72
𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝐿𝑒𝑎𝑟𝑛𝑒𝑟) 𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝐿𝑒𝑎𝑟𝑛𝑒𝑟) 0.85
Application-centric evaluations Predict ecosystem outcomes アプリケーション中心の評価 予測生態系の結果 0.61
𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚 + 𝑀𝑜𝑑𝑒𝑙) 𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚 + 𝑀𝑜𝑑𝑒𝑙) 0.85
Primarily engineering プライマリエンジニアリング 0.72
Table 1. Summary of typical goals of the idealized learner-centric and application-centric evaluations. 表1。 理想化された学習者中心およびアプリケーション中心の評価の典型的な目標の概要。 0.66
This distinction between learner-centric and application-centric is related (albeit imperfectly) to the different objectives of model evaluations that concern the engineering and science disciplines [113, 168]. この学習者中心と応用中心の区別は、工学と科学の分野 [113, 168] に関するモデル評価の異なる目的と(不完全だが)関連している。 0.78
Note that we are not claiming (cf. the debate in [122]) that science lies outside the bounds of statistical/ML methods, but rather that scientificflavored pursuits have distinct uses of such methods [24]. 122]の議論では、科学は統計/ml法の限界外にあるのではなく、科学的に風味のある追求は[24]と異なる利用法を持っていると論じている。 0.68
Debates between AI practitioners about the relationships between AI, science, and statistical methods have a long history, for example Diana Forsythe’s studies of 1980s AI labs [56]. 例えば、diana forsythe氏の1980年代のai labsの研究 [56]のように、ai、科学、統計手法の関係に関するai実践者間の議論は長い歴史を持っています。
訳抜け防止モード: AI実践者間のAI、科学、統計手法の関係に関する議論には長い歴史がある。 例えば、Diana Forsythe氏による1980年代のAIラボの研究 [56 ]。
0.79
Important to this debate regarding the scientific goals of ML is the question of construct validity; that is, whether our measurements actually measure the things that we claim they do [85, 86, 135]. MLの科学的目標に関するこの議論において重要なのは、構築の妥当性に関する問題であり、つまり、我々の測定が実際に、私たちが主張する[85, 86, 135]を計測しているかどうかである。 0.65
Conversely, consequential validity—which includes the real-world consequences of an evaluation’s interpretation and use—is likely more important to considerations of accountability and governance of ML models in applications [86]. 逆に、評価の解釈と使用による実際の結果を含む一連の妥当性は、アプリケーションにおけるmlモデルの説明責任とガバナンスを考える上でより重要である可能性が高い [86]。 0.65
Scientific goal. Evaluating the model can motivate beliefs/explanations about the world (including possibly the learner). 科学的目標。 モデルの評価は、(おそらく学習者を含む)世界についての信念や説明を動機付ける可能性がある。 0.67
Engineering goal. エンジニアリングの目標。 0.78
Evaluating the model can tell us whether the model can be used as a means towards a goal. モデルを評価することで、モデルが目標に向かう手段として使用できるかどうかを判断できます。
訳抜け防止モード: モデルの評価 教えてくれるかどうか モデルはゴールへの手段として使うことができます
0.87
This distinction is closely related to one between “scientific testing” and “competitive testing” made by Hooker in 1995, who takes the position that competitive testing この区別は1995年にHookerが行った“科学的テスト”と“競争的テスト”の2つと密接に関連している。 0.69
a) is unscientific, and a) 科学的でない、そして 0.82
b) does not constitute true research but merely development [78]. b) 真の研究を成すのではなく、単に展開すること[78] 0.71
However, since engineering research has its own goals, distinct from those of science [26], a more defensible position is that evaluations in support of scientific research are distinct from evaluations in support of engineering research. しかし,工学研究は科学 [26] とは異なる独自の目標を持っているため,科学研究支援の評価は工学研究支援の評価とは別物である。 0.71
Table 1 summarizes the above distinctions and the relationships between them. 表1は上記の区別とそれらの関係をまとめたものである。 0.70
The distinction between learnercentric and application-centric evaluations relates to the question of internal validity and external validity that is more commonly discussed in the social sciences than in ML (see, e g , [123]) but also sometimes in ML [103]. 学習中心評価と応用中心評価の区別は、社会科学においてMLよりも一般的に議論される内的妥当性と外的妥当性の問題(eg, [123]参照)と、時にはML[103]においても議論される。 0.75
This is reflected in the ways in which practitioners of the two types of evaluations discuss the topic of robustness. これは2種類の評価の実践者が堅牢性について論じる方法に反映されている。 0.73
Learnercentric evaluations pay attention to the robustness of the learner to changes in the training data (e g , distributional shifts, outliers, perturbations, poisoning attacks; and with connections to robust estimation of statistics [101]), while application-centric evaluations pay attention to desired behaviors such as the (in)sensitivity of the model to certain classes of perturbations of the input, or to sensitive input features (e g , [61]). 学習者中心の評価は、学習者の学習データの変化(分布シフト、異常値、摂動、毒物攻撃など)に対する堅牢性に注意を払い、アプリケーション中心の評価は、入力の特定の摂動クラスに対するモデルの(in)感受性、または敏感な入力特徴(例えば[61])に注意を向ける。
訳抜け防止モード: 学習者中心の評価は、学習者の学習データの変化に対する頑健性(例えば、学習者)に注意を払う。 分布シフト, 異常値, 摂動, 中毒攻撃, および統計のロバストな推定との関連 [101 ]) 応用 - 中心的評価は、モデルの(in)感受性のような望ましい振る舞いに、入力のある種の摂動クラスに注意を払う。 あるいは、センシティブな入力機能(例えば、[61 ])に対して。
0.78
Note that nothing in the ideals of evaluation described above has stipulated whether evaluations are quantitative or qualitative. 上記の評価の理想に、評価が量的か質的かは規定されていないことに注意。 0.69
For example, one could imagine interrogating a chatbot model using qualitative techniques, or adopting methodologies of political critique such as [41]. 例えば,質的手法を用いてチャットボットモデルを問う場合,[41]のような政治的批判の方法論を採用する場合などが考えられる。 0.75
Similarly, nothing has stipulated what combinations of empirical or deductive methods are used. 同様に、実験的な方法や導出的な方法の組み合わせが使われるかは規定されていない。 0.52
3 ML MODEL EVALUATIONS IN PRACTICE 3 mlモデルによる実運用評価 0.69
Beneath the technical issues lie some differences in values concerning not only the meaning but also the relative merit of “science” and “artificial intelligence.” — Diana Forsythe [56] 技術的な問題の下には、意味だけでなく、“科学”と“人工知”の相対的なメリットについても、いくつかの価値の違いがあります。
訳抜け防止モード: 技術的な問題は、意味だけでなく、「科学」と「人工知能」の相対的なメリットに関する価値の相違にある。 ダイアナ・フォーサイス(Diana Forsythe) [56]
0.68
To shed light on the ML research community’s norms and values around model evaluation, we looked at how these communities report their model evaluations. モデル評価に関するML研究コミュニティの規範と価値観を明らかにするため,これらのコミュニティがモデル評価をどう報告するかを検討した。 0.84
By examining 200 papers from several top conferences in two research 複数のトップカンファレンスから200の論文を2つの研究で調べる 0.76
4 4 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
disciplines that use ML approaches extensively, we identified patterns regarding choices of metrics, evaluation data, and measurement practices. mlアプローチを幅広く使用する分野において、メトリクスの選択、評価データ、測定プラクティスに関するパターンを特定しました。 0.62
This empirical study of ML research practices complements several recent studies of ML evaluation practices. このML研究実践に関する実証的研究は、ML評価実践に関する最近のいくつかの研究を補完するものである。 0.53
These include: a survey 144 research papers studying the properties of models that are tested for [177]; a review of 107 papers from Computer Vision (CV), Natural Language Processing (NLP) and other ML disciplines to diagnose internal and external modes of evaluation failures [103]; an analysis of whether 60 NLP and CV papers pay attention to accuracy or efficiency [152]; and an analysis of the Papers With Code dataset2 for patterns of benchmark dataset creation and re-use [93]. 例えば、[177]でテストされるモデルの特性を研究する144の研究論文、[177]でテストされるモデルの性質を研究するコンピュータビジョン(CV)、自然言語処理(NLP)など、評価失敗の内部および外部モードを診断するためのMLの規律に関する107の論文のレビュー[103]、60のNLPおよびCV論文が精度や効率に注意を払うかどうかの分析[152]、ベンチマークデータセットの作成と再利用のパターンに関するPapers With Codeデータセット2の分析[93]。 0.85
3.1 Method 3.1.1 Data. 3.1 メソッド 3.1.1 データ。 0.53
We sampled 200 research papers, stratified by discipline, conference and year. 我々は、規律、会議、年によって階層化された200の研究論文をサンプリングした。 0.49
100 papers were selected from each of the NLP and CV disciplines. NLPおよびCVの分野から100の論文が選択された。 0.74
We selected 20 papers from the proceedings of each of the 55th to 59th Annual Meetings of the Association of Computational Linguistics (ACL’2017–ACL’2021), 25 papers at random from each of the proceedings of the 2019–2021 IEEE Conferences on Computer Vision and Pattern Recognition (CVPR’2019–CVPR’2021), and 25 papers from the 24th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI’2021). 計算言語学会第55回から第59回年次大会(ACL’2017-ACL’2021)の各議事録から20論文、コンピュータビジョンとパターン認識に関する2019-2021年IEEE会議(CVPR’2019-CVPR’2021)の各議事録から25論文、医用画像コンピューティングとコンピュータ支援介入に関する第24回国際会議(MICCAI’2021)から25論文を選定した。 0.78
These conferences represent the pinnacles of their respective research fields.3 これらの会議はそれぞれの研究分野の要点を表している。3 0.62
3.1.2 Analysis. The authors of this paper performed this analysis, dividing the papers among themselves based on disciplinary familiarity. 3.1.2 分析。 本論文の著者はこの分析を行い,学際的親しみに基づく各論文の分割を行った。 0.51
Using an iterative procedure of analysis and discussion, we converged on a set of labels that captured important aspects of evaluations across and within disciplines. 分析と議論の反復的な手順を用いて,各分野における評価の重要な側面を捉えたラベルセットに収束した。 0.85
Recall from Section 2 that, for our purposes, a single evaluation typically involves choosing one or more metrics and one or more datasets. セクション2から、私たちの目的のために、1つ以上のメトリクスと1つ以上のデータセットを選択するのが通常です。 0.65
We coded each of the papers along three dimensions. 私たちは各論文を3次元でコーディングした。 0.70
a) Metrics: Which evaluation metrics were reported? a) 指標:どの評価指標が報告されたか? 0.66
After iteration, we converged on the categories of metrics shown in Table 2. イテレーションの後に、テーブル2に示されるメトリクスのカテゴリに収束しました。 0.67
b) Data: Was test data drawn from the same distribution as the training data, under the Independent and Identically Distributed (I.I.D.) assumption? b)データ:テストデータは、独立分散(i.i.d.)の仮定の下で、トレーニングデータと同じ分布から引き出されたか。 0.85
c) Analysis: Was statistical significance of differences reported? c)分析:報告された相違の統計的意義は? 0.79
Were error bars and/or confidence intervals reported? エラーバーや信頼区間は報告されたか? 0.55
Was error analysis performed? エラー分析は行われたか? 0.67
Were examples of model performance provided to complement measurements with qualitative information? 定性情報による測定を補完するモデル性能の例はありますか? 0.82
3.2 Results Although each of the disciplines and conferences does not define itself solely in terms of ML, the practice of reporting one or more model evaluations in a research paper is ubiquitous. 3.2結果 それぞれの分野や会議はmlだけでは定義されていないが、研究論文で1つ以上のモデル評価を報告するプラクティスはユビキタスである。 0.75
Only five papers did not include evaluations of ML models; of these two were published at ACL (a survey paper, a paper aimed at understanding linguistic features, and one on spanning-tree algorithms), and two at CVPR (a paper with only qualitative results, and one introducing a dataset). MLモデルの評価には5つの論文しか含まれておらず、そのうちの2つの論文はACL(言語的特徴の理解を目的とした調査論文、スパンニングツリーアルゴリズムに関する調査論文)とCVPR(定性的な結果のみの論文、データセットの導入)で発表された。 0.80
Table 3 summarizes the results of the other 195. 表3は、他の195の結果をまとめたものです。 0.62
Counts are non-exclusive, for example papers frequently reported multiple metrics and sometimes reported performance both on I.I.D. test data and on non-I.I.D. test data. 例えば、複数のメトリクスを頻繁に報告し、I.I.D.テストデータと非I.D.テストデータの両方のパフォーマンスを報告している。 0.65
Appendix B contains an overview of the flavors of test data we observed. Appendix Bには、私たちが観察したテストデータのフレーバーの概要が含まれています。 0.59
We found evidence to support the claim that evaluations of NLP models have “historically involved reporting the performance (generally meaning the accuracy) of the model on a specific held-out [i.e., I.I.D.] test set” [20, p. 94].4 我々は,NLPモデルの評価が「特定のホールドアウト(I.I.D.)テストセット」[20, p. 94].4において,モデルの性能(一般的には精度)を報告している」という主張を支持する証拠を発見した。 0.81
CV evaluations seem to be even more likely to utilize I.I.D. test data, and—consistent with [93]—CV papers typically either introduce a new task (and corresponding 2https://paperswithc ode.com 3ACL and CVPR are rated A∗ (“flagship conference”), and MICCAI is rated A (“excellent conference”), by core.edu.au; all three are in the top 30 computer science conferences out of over 900 listed on research.com. CV評価は、I.I.D.テストデータを利用する可能性がさらに高く、[93]と矛盾し、CV論文は、通常、新しいタスク(および対応する2https://paperswithc ode.com 3ACL と CVPR は A∗ ("flagship conference") と評価され、MICCAI は core.edu.au によって A* ("excellent conference") と評価されている。 0.77
4Two observed non-I.I.D. evaluation patterns in NLP were: 4)NLPにおける非I.I.D.評価パターンは以下の通りである。 0.43
a) testing on a different linguistic “domain” (e g , training on texts about earthquakes and testing on texts about floods [1]); and a) 異なる言語的「領域」の試験(例:地震に関するテキストの訓練、洪水に関するテキストの試験[1])及び 0.68
b) testing a model’s ability to predict properties of a manually compiled lexical resource (e g , [164]). b)手動でコンパイルされた語彙資源(例、[164])の特性を予測するモデルの能力をテストすること。 0.77
See also Appendix B. Appendix Bも参照。 0.69
5 5 0.42
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
Metric category Accuracy Precision Recall F-score Overlap Likelihood Distance Correlation 距離距離相関によるFスコアオーバーラップの高精度リコール 0.72
AUC Description Sensitive to the sum TP+TN and to N. Not sensitive to class imbalance. AUC クラス不均衡に敏感でない TP+TN と N に感性を記述する。 0.62
Sensitive to TP and FP. TPおよびFPに対する感受性。 0.80
Not sensitive to FN or TN. FNやTNに敏感ではない。 0.76
Sensitive to TP and FN. TPおよびFNに対する感受性。 0.69
Not sensitive to FP or TN. FPやTNに敏感ではない。 0.72
Sensitive to TP, FP and FN. TP、FP、FNに対する感受性。 0.74
Not sensitive to TN. TNに敏感ではない。 0.72
Sensitive to intersection and overlap of predicted and actual. 予測と実際の交差と重なりに敏感である。 0.70
Sensitive to the probability that the model assigns to the test data. モデルがテストデータに割り当てる確率に敏感である。 0.68
Examples Accuracy, error rate Precision, Bleu Recall, Rouge 𝐹1, 𝐹𝛽 Dice, IoU Perplexity MSE, MAE, RMSE, CD Sensitive to the distance between the prediction and the actual value. 精度、エラーレート精度、Bleu Recall、Roge F1、Fβ Dice、IoU Perplexity MSE、MAE、RMSE、CD Sensitiveは、予測と実際の値の間の距離に比例する。 0.73
Sensitive to each of TP, TN, FP and FN, but unlike Accuracy metrics Pearsons 𝑟, Spearman’s 𝜌 they factor in the degree of agreement that would be expected by chance. TP、TN、FP、FNの各指標に敏感だが、精度の指標Pearsons rと異なり、スピアマンのρは偶然に予想される合意の度合いを左右する。 0.66
Does not rely on a specific classification threshold, but instead calculates MAP, AUROC the area under a curve parameterized by different thresholds. 特定の分類しきい値に依存せず、MAPを計算し、AUROCは異なるしきい値でパラメータ化された曲線の下で面積を計算する。 0.68
Table 2. Categories of evaluation metrics used in the analysis of the ML research literature. 表2。 ml研究文献の分析に使用される評価指標のカテゴリ。 0.71
TP=true positives; TN=true negatives; FP=false positives; FN=false negatives; N=total number of data points. TP= true positives, TN=true negatives, FP=false positives, FN=false negatives, N=total number of data points。 0.38
See Appendix A for the most common metrics in our data and their categorizations. データとカテゴリの最も一般的なメトリクスについては、Appendix Aを参照してください。 0.64
benchmark dataset) [87, 102, 142, 174] or present results of a new model on an existing widely-used benchmark [73, 138]. ベンチマークデータセット) [87, 102, 142, 174] 既存の広く使用されているベンチマーク [73, 138] の新しいモデルの結果。 0.74
An exception to this trend was CV papers which explored shared representations (e g , in multi-task learning [53, 99] or domain adaptation [119, 126]). この傾向の例外として,共有表現(マルチタスク学習[53,99],ドメイン適応[119,126])を探索したCVペーパーがある。
訳抜け防止モード: この傾向の例外は、共有表現(例えば、)を探索するCVペーパーである。 in multi - task learning [ 53, 99 ] or domain adaptation [ 119, 126 ] ]
0.85
Evaluations in both disciplines showed a heavy reliance on reporting point estimates of metrics, with variance or error bars typically not reported in our sample. 両分野における評価は, 測定値の報告点推定に大きく依存しており, ばらつきやエラーバーが典型的に報告されていない。 0.68
While colloquial uses of phrases like “significantly better” were fairly common, most papers did not report on technical calculations of statistical differences; we considered only those latter instances when coding whether a paper reported significance. のようなフレーズの口語的使用はかなり一般的であったが、ほとんどの論文は統計的差異の技術的計算について報告していない。 0.56
Regarding metrics, most of those that were frequently seen in our sample were somewhat insensitive to different types of errors. メトリクスに関しては、サンプルで頻繁に見られたもののほとんどは、さまざまなタイプのエラーに多少敏感でした。 0.63
For example, accuracy does not distinguish between FP and FN; 𝐹1 is symmetric in FP and FN (they can be swapped without affecting 𝐹1); the Overlap metrics are similary invariant to swapping of the predicted bounding box and the reference bounding box; the Distance category of metrics does not distinguish over-estimation from under-estimation on regression tasks. 例えば、精度は FP と FN を区別しない; F1 は FP と FN で対称(F1 に影響を与えずに交換できる); Overlap のメトリクスは予測された有界箱と参照有界箱の交換と似ている; メトリクスの距離圏は回帰タスクの過大推定と過大推定を区別しない。 0.79
From our reading of the 200 papers in our sample, one qualitative observation we had was that model evaluations typically do not include concrete examples of model behavior, nor analyses of errors (for a counterexample which includes these practices, see [35]). 私たちのサンプルにある200の論文を読むと、モデル評価はモデル行動の具体的な例やエラーの分析(これらのプラクティスを含む逆例については[35]参照)を含まない、という質的な観察がありました。 0.86
Also, we noted the scarcity of papers whose sole contribution is a new dataset for an existing task, aligning with previous observations that dataset contributions are not valued highly within the community [147]. また、既存のタスクのための新しいデータセットに唯一貢献する論文が不足していることに言及し、データセットのコントリビューションがコミュニティ内で高く評価されていないという過去の観察と一致した[147]。 0.71
We hypothesise that conference reviewers place emphasis on novelty of model, task, and/or metric. カンファレンスレビュアーがモデル、タスク、および/またはメトリクスの斬新性に重点を置くと仮定する。 0.51
We note a general tension between disciplinary values of task novelty and demonstrating state-of-the-art performance by outperforming previous models, and the risk of overfitting from test set re-use discussed by [103]. 課題の独創性と,先行モデルよりも優れた技術性能を示すこと,および[103]で論じられたテストセットの再使用による過度な適合のリスクについて述べる。 0.68
3.3 Discussion This small-scale quantitative study of model evaluations provides clues as to the values and goals of the ML research communities. 3.3 モデル評価に関する小規模な定量的研究は,ML研究コミュニティの価値と目標に関する手がかりを提供する。 0.79
Test data was often old (e g , the CONLL 2003 English NER dataset [149] used in two papers); optimizing for these static test sets fails to account for societal and linguistic change [14]. テストデータは古いものが多い(例: CONLL 2003 English NER データセット[149]を2つの論文で用いた)。
訳抜け防止モード: テストデータは、しばしば古い (例: CONLL 2003 English NER data [149 ] used in two papers) 静的なテストセットを最適化し 社会的・言語的な変化を 説明できません [14]
0.80
Disaggregation of metrics was rare, and fairness analyses were absent despite our sample being from 2017 onward, concurrent with mainstream awareness of ML fairness concerns. メトリクスの分解はまれであり、2017年以降のサンプルにもかかわらず、フェアネス分析は欠如しており、MLフェアネスの懸念に対する認識が主流であった。 0.53
Despite being acknowledged by influential thought-leaders in ML to be unrealistic for applications [15], using I.I.D. test data is the norm. mlの影響力のある思想指導者はアプリケーション [15] に対して非現実的であると認めているが、i.i.d.テストデータを使うことが一般的である。 0.51
These are in alignment with the learner-centric goals of evaluations (Section 2). これらは評価の学習者中心の目標と一致している(セクション2)。 0.70
Similarly, with a few exceptions in our sample, there was general paucity of discussions of tradeoffs such as accuracy vs 同様に、サンプルにいくつか例外があったが、正確性 vs. トレードオフに関する議論は一般的だった。 0.64
6 6 0.43
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Discipline:Venue (# papers with ML evals) Most Common Metrics Metric category♣ (num. of papers) 規律:venue (# papers with ml evals) 最も一般的なメトリクスメトリックのカテゴリ: (論文数) 0.73
NLP:ACL (97) NLP:ACL(97) 0.42
CV:CVPR (73) CV:CVPR(73) 0.42
CV:MICCAI (25) CV:MICCAI(25) 0.41
CV:Combined (98) CV-Combined(98) 0.39
NLP+CV:Combined (195) NLP+CV:コンビネート(195年) 0.70
Accuracy (47) F-score (45) Precision (43) Recall (25) 精度(47)Fスコア(45)精度(43)リコール(25) 0.80
AUC (32) Accuracy (25) Overlap (22) Distance (10) AUC(32)精度(25)オーバーラップ(22)距離(10) 0.67
Distance (14) Overlap (9) AUC (6) Accuracy (4) 距離(14)オーバーラップ(9)AUC(6)精度(4) 0.55
AUC (38) Overlap (31) Accuracy (29) Distance (24) AUC(38)オーバーラップ(31)精度(29)距離(24) 0.68
Accuracy (76) F-score + Overlap♠ (74) Precision (48) AUC (44) 精度 (76) f-スコア + 重なり (74) 精度 (48) auc (44) 0.82
Data I.I.D. test data Non-I.I.D. test data Analysis Reports significance Reports error bars♢ Table 3. データi.i.d.テストデータ 非i.i.d.テストデータ解析レポート 重要度レポート エラーバーシテーブル3。 0.64
Analysis of how Natural Language Processing (NLP) and Computer Vision (CV) research communities perform ML model evaluations. 自然言語処理(NLP)とコンピュータビジョン(CV)の研究コミュニティがどのようにMLモデル評価を行うかの分析。 0.83
♣Appendix A provides definitions of commonly observed metrics, and their mappings to categories. Appendix A はよく観察されるメトリクスの定義とカテゴリへのマッピングを提供する。 0.76
♢Includes any form of error bars/confidence intervals/credible intervals/variation across multiple runs. エラーバー/信頼区間/クレディブル区間/バラエティの任意の形式を複数のランで含む。 0.43
♠Reported together here due to the equivalence of the Dice measure (in the Overlap category) and 𝐹1 (in the 𝐹 -score category) [127]. ここでは、Dice測度(オーバーラップ圏)とF1(F-スコア圏) [127] の同値性により、共に報告される。
訳抜け防止モード: ここでは、Dice測度(オーバーラップ圏において)の同値性により、共に報告される。 F1 (F-score category ) [ 127 ]
0.78
175 53 31 26 175 53 31 26 0.43
78 28 24 10 78 28 24 10 0.42
25 4 7 10 97 25 25 4 7 10 97 25 0.43
7 16 72 21 7 16 72 21 0.42
0 6 resource-efficiency that are typical of engineering disciplines [26], suggesting that the ML research disciplines generally aspire to scientific goals concerning understanding and explaining the learner. 0 6 工学分野の典型である資源効率は[26]、ML研究分野は一般に学習者の理解と説明に関する科学的目標を志向していることを示唆している。 0.55
With this lens, the disciplinary paradigm of measuring accuracy on I.I.D. test data is not surprising: the goal is to assess a model’s ability to generalize. このレンズでは、I.I.D.テストデータの精度を測定するディシプリナのパラダイムは驚くべきものではなく、モデルの一般化能力を評価することが目的である。 0.67
This assessment would then give us good guarantees on the application’s behavior, if the practical challenges of ascertaining the data distributions in an application ecosystem can be overcome. この評価によって、アプリケーションエコシステム内のデータ分布を確認するという現実的な課題が克服できれば、アプリケーションの振る舞いに関する優れた保証が得られます。 0.75
In practice, however, these challenges can be severe, and the research papers we surveyed do not generally tackle questions of uncertainty regarding data distributions. しかし実際には、これらの課題は深刻であり、調査した研究論文は一般にデータ分布の不確実性に関する問題に対処しない。 0.63
4 GAPS AND ASSUMPTIONS IN COMMON EVALUATION PRACTICES 4 共通評価実践におけるギャップと前提 0.58
In theory there is no difference between theory and practice, while in practice there is. 理論的には理論と実践には違いはないが、実際はそうである。 0.84
— Brewster (1881) [25] -ブリュースター(1881年)〔25年〕 0.49
We now consider whether the research evaluation practices observed in Section 3 are aligned with the needs of decision-makers who consider whether to use a model in an application. 我々は,第3節で観察された評価手法が,アプリケーションでモデルを使用するかどうかを検討する意思決定者のニーズに合致するかどうかを検討する。 0.69
That is, we consider whether the typically learner-centric evaluations, which commonly use metrics such as accuracy or 𝐹1 on test data I.I.D. with the training data, meet the need of application-centric evaluations. すなわち、テストデータI.I.D.における精度やF1などの指標を一般的に使用する学習者中心評価が、アプリケーション中心評価の必要性を満たすかどうかを検討する。 0.78
In doing so, we expose, in a novel way, the interplay of technical and normative considerations in model evaluation methodologies. そこで我々は,モデル評価手法における技術的および規範的考察の相互作用を,新しい方法で明らかにした。 0.79
4.1 Assumptions in Model Evaluation We introduce six assumptions in turn, describing both how they operate individually in evaluations and how they compose and compound. 4.1 モデル評価における仮定 モデル評価における個々の動作の仕方と構成・構成の仕方の両方を記述した6つの仮定を導入する。 0.66
We also call out “evaluation gaps” of concern relevant to each assumption. また、各仮定に関連する関心事の“評価ギャップ”も指摘します。 0.66
Appendix C contains a hypothetical example from a specific application domain that illustrates the flavors of the concerns. Appendix Cは、関心事のフレーバーを示す特定のアプリケーションドメインからの仮説的な例を含んでいる。 0.70
Our starting point is the observation from Section 2 that the goal of application-centric model evaluations is to understand how a model will interact with its ecosystem, which we denote schematically as: 私たちの出発点は、第2節から、アプリケーション中心のモデル評価の目標は、モデルがそのエコシステムとどのように相互作用するかを理解することです。 0.71
𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) 𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) 0.85
(Application-centric Evaluation Goal) (アプリケーション中心評価目標) 0.89
Assumption 1: Conseqentialism. Consequentialism is the view that whether actions are good or bad depends only on their consequences [157]. 前提1:連続主義。 連帯主義は、行動が善か悪かは結果にのみ依存する、という考え方である [157]。 0.65
The ML research literature often appeals to motivations about model utility to humans ML研究論文は、モデルユーティリティの人間への動機付けにしばしば訴える 0.79
7 7 0.42
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
(e g , [19, 27, 51, 59, 76, 83, 107, 121, 124, 179], including papers on fairness in ML such as [29, 36, 38, 39]). (例)[19,27,51,59,76,83,10 7,11,114,179]、[29,36,38,39]のようなmlの公平性に関する論文を含む。)
訳抜け防止モード: (eg, [19, 27, 51, 59, 76, 83, 107, 121, 124, 179 ], 例えば、[29, 36, 38, 39 ] のようなMLの公平性に関する論文を含む。
0.77
In adopting consequentialism as its de facto ethical framework, ML prioritizes the greatest good for the greatest number [84] and centers measurable future impacts. 畳み込み主義を事実上の倫理的枠組みとして採用する際、MLは最も多くの[84]にとって最高の善を優先し、測定可能な将来の影響の中心となる。
訳抜け防止モード: 畳み込み主義を事実上の倫理的枠組みとして採用する際、MLは最も優れた [84] を優先する。 測定可能な未来の影響を
0.59
Moreover, the consequences that are centered are the direct consequences, with little attention given to motives, rules, or public acceptance [157]. さらに、結果が中心となるのは直接的な結果であり、モチベーションやルール、あるいは一般の受け入れにはほとんど注意を払わない [157]。 0.56
This is realised as a focus on the first-order consequences of introducing the model into the ecosystem. これは、モデルをエコシステムに導入する1次的な結果に焦点をあてるものとして実現されている。 0.57
Changes to the ecosystem itself—e g , addressing what social change is perceived as possible and desirable [49, 68, 79]—are assumed to be out of scope, as are concerns for setting of precedents for other ML developers. エコシステム自体の変更 — 例えば、社会的変化が可能なものとして認識され、望ましい[49, 68, 79] — は、他のML開発者の前例の設定に関する懸念と同様に、スコープ外であると仮定される。 0.74
We denote this assumption schematically as: 我々はこの仮定を次のようにスキーマ的に記述する。 0.38
𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) 𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) 0.85
(Consequentialism Assumption) Evaluation Gap 1: Provenance. (帰属主義の前提) 評価ギャップ1:プロヴァンス。 0.60
A focus on future consequences neglects important moral considerations regarding the construction of the model. 将来の結果への焦点は、モデルの構築に関する重要な道徳的考慮を無視している。 0.56
This excludes both deontological concerns—for example, Were data consent and sovereignty handled appropriately? 例えば、データの同意と主権は適切に扱われていたか? 0.60
[4, 41, 96] and Were data workers treated with dignity? 4, 41, 96] と尊厳で扱われたデータワーカーは? 0.75
[67]—as well as questions regarding past costs of development—for example, What were the energy use externalities of model training? 例えば、モデルトレーニングのエネルギー利用の外部性はどうでしたか?
訳抜け防止モード: [67]、例えば、過去の開発コストに関する質問と同様に、 モデルトレーニングにおけるエネルギー利用の外部性について
0.85
[40, 60, 159] and Was the labour paid fairly? [40,60,159] 労働力はまともでしたか? 0.75
[156]. Schwartz et al coin the phrase “Red AI” to describe ML work that disregards the costs of training, noting that such work inhibits discussions of when costs might outweigh benefits [152]. [156]. Schwartz氏らは、トレーニングのコストを無視するMLの作業を記述するために、”Red AI”という言葉を作った。
訳抜け防止モード: [156]. シュワルツらは「赤いAI」という言葉を造った トレーニングのコストを無視するML作業を記述すること。 このような作業は、いつコストが利益を上回るかについての議論を妨げていることを指摘します [152]
0.46
Evaluation Gap 2: Social Responsibilities. 評価ギャップ2:社会的責任。 0.72
Another outcome of focusing primarily on direct consequences is marginalizing the assessment of a model against the social contracts that guide the ecosystem in which the model is used, such as moral values, principles, laws, and social expectations. 直接的な結果に焦点を合わせるもう一つの結果は、道徳的価値、原則、法則、社会的期待など、モデルが使用されるエコシステムを導く社会的契約に対するモデルの評価を余分に行うことである。 0.63
For instance, Does the model adhere to the moral duty to treat people in ways that upholds their basic human rights? 例えば、モデルは、基本的人権を守る方法で人々を扱い、道徳的義務を遵守しているか? 0.80
[155], Does it abide by legal mechanisms of accountability? 155] 責任の法的メカニズムに 従うのでしょうか? 0.64
[114, 137], and Does it satisfy social expectations of inclusion, such as the “nothing about us without us” principle? 114,137]と,“私たちなしでは我々について何も話さない”という原則のように,包摂性に対する社会的期待を満たすものなのだろうか?
訳抜け防止モード: [114,137 ]そして、それは包摂性の社会的期待を満たすか? 例えば、“私たちなしでは何もしない”という原則?
0.73
[33]. Assumption 2: Abstractability from Context. [33]. 仮定2:コンテキストからの抽象化性。 0.48
The model’s ecosystem is reduced to a set of considerations モデルのエコシステムは、一連の考慮事項に縮小される 0.70
(𝑋, 𝑌), i.e., the inputs to the model and the “ground truth,” and in practice 𝑋 may often fail to model socially important (x,y)すなわち、モデルへの入力と「根拠の真理」、そして実際、xは、しばしば社会的に重要なモデルに失敗します。 0.77
yet sensitive aspects of the environment [5, 10]. 環境[5, 10]の微妙な側面です 0.58
The model itself is reduced to a predicted value ˆ𝑌, ignoring e g , secondary model outputs such as confidence scores, or predictions on auxiliary model heads. モデルそのものは、例えば、信頼度スコアなどの二次モデル出力や補助モデルヘッドの予測を無視して、予測値syに還元される。 0.81
𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑋, 𝑌) 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑋, 𝑌) 0.42
(Assumption of Abstractability of Context) (文脈の抽象性の仮定) 0.75
Evaluation Gap 3: System Considerations. 評価ギャップ3:システムに関する考察。 0.79
Equating a model with its prediction overlooks the potential usefulness of model interpretability and explainability. モデルと予測を同一視することは、モデル解釈可能性と説明可能性の潜在的な有用性を見落としている。
訳抜け防止モード: モデルと予測との等価性 モデル解釈可能性と説明可能性の潜在的有用性を見落としている。
0.67
Also, reducing an ecosystem to model inputs and “ground truth” overlooks questions of system dynamics [111, 154], such as feedback loops, “humans-in-the-loop,” and other effects “due to actions of various agents changing the world” [15]. また、入力をモデル化するためのエコシステムの縮小と“根拠真実”は、フィードバックループや“ループ内の人間”、”世界を変えるさまざまなエージェントの行動”など、システムダイナミクスの疑問[111, 154]を見落としています。 0.69
Also overlooked are inference-time externalities of energy use [28, 60], cultural aspects of the ecosystem [145], and long term impacts [29]. また、エネルギー使用[28, 60]の推論時間外部性、エコシステムの文化的側面[145]、長期的影響[29]も見過ごされています。 0.71
Evaluation Gap 4: Interpretive Epistemics. 評価ギャップ4:解釈認識論。 0.68
By positing a variable 𝑌 = 𝑦 which represents the “ground truth” of a situation—even in situations involving social phenomena—a positivist stance on knowledge is implicitly adopted. 社会的現象を含む状況であっても、状況の「根拠真実」を表す変数 y = y を仮定することで、知識に対する実証主義的なスタンスが暗黙的に採用される。 0.61
That is, a “true” value 𝑌 = 𝑦 is taken to be objectively singular and knowable. すなわち、「真」の値 Y = y は客観的に特異であり、可知であると見なされる。 0.74
This contrasts with anthropology’s understanding of knowledge as socially and culturally dependent [57] and requiring interpretation [63]. これは人類学の知識に対する社会的・文化的依存 [57] と解釈を必要とする [63] との対比である。 0.75
In the specific cases of CV and NLP discussed in Section 3, cultural aspects of image and language interpretation are typically marginalized (cf. [11, 16, 89, 100], for example), exemplifying what Aroyo and Welty call AI’s myth of “One Truth” [7]. 第3節で論じられたCVとNLPの特定のケースでは、画像と言語解釈の文化的側面は、通常、(例えば [11, 16, 89, 100])辺境化され、AroyoとWeltyがAIの神話である"One Truth" [7]を例示している。 0.75
Furthermore, the positivist stance downplays the importance of questions of construct validity and reliability [58, 86]. さらに,実証主義的な立場は,構成的妥当性と信頼性の問題の重要性を軽視する[58,86]。 0.67
Assumption 3: Input Myopia. 推定3:入力ミオピア。 0.54
Once the input variable 𝑋 has been used by the model to calculate the model prediction ˆ𝑌, 𝑋 is typically 入力変数 X がモデルによってモデル予測に使用されると、通常 X は X である。 0.79
8 Fig. 2. Causal graph illustrating the Input Myopia Assumption. 8 図2。 入力近視の仮定を示す因果グラフ。 0.54
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
ignored for the remainder of the evaluation. 残りの評価は無視された。 0.67
That is, the utility of the model is assumed to depend only on the model’s prediction and on the “ground truth.” つまり、モデルの有用性は、モデルの予測と“地下の真実”にのみ依存していると仮定される。 0.69
We illustrate this with a causal graph diagram in Figure 2, which shows Utility as independent of 𝑋 once the effects of ˆ𝑌 and 𝑌 are taken into account. 図2の因果グラフ図でこれを説明し、 yY と Y の効果を考慮すると、ユーティリティは X から独立であることを示す。 0.69
𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑋, 𝑌) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑌) 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑋, 𝑌) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑌) 0.43
(Input Myopia Assumption) Evaluation Gap 5: Disaggregated Analyses. (入力近視仮説) 評価ギャップ5:分散分析。 0.63
By reducing the variables of interest to the evaluation to the prediction 𝑌 and the ground truth ˆ𝑌, the downstream evaluation is denied the potential to use 𝑋. 予測Yと基底真理*Yに対する評価に対する関心の変数を減少させることで、下流評価はXを使用する可能性を否定した。 0.76
This exacerbates Evaluation Gap 3 by further abstracting the evaluation statistics from their contexts. これにより、評価統計を文脈からさらに抽象化することで評価ギャップ3が悪化する。 0.60
For example, 𝑋 could have been used to disaggregate the evaluation statistics in various dimensions—including for fairness analyses, assuming that socio-demographic data is available and appropriate [6, 9]—or to examine regions of the input space which raise critical safety concerns (e g , distinguishing a computer vision model’s failure to recognise a pedestrian on the sidewalk from failure to recognise one crossing the road) [3]. 例えば、Xは、社会デコグラフィーデータが利用可能で適切な [6, 9] と仮定して、フェアネス分析を含む様々な次元における評価統計を分解するために、あるいは、重要な安全上の懸念(例えば、コンピュータビジョンモデルが歩道の歩行者を認識できないことを歩道で認識できないことを区別する)を引き起こす入力空間の領域を調べるために使用された。 0.81
Similarly, robustness analyses which compare the model predictions for related inputs in the same neighborhood of the input space are also excluded. 同様に、入力空間の同一近傍における関連する入力のモデル予測を比較するロバストネス解析も除外される。 0.83
Assumption 4: Quantifiability. We have not yet described any modeling assumptions about the mathematical or topological nature of the implied 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦 function, which up to now has been conceived as an arbitrary procedure producing an arbitrary output. 仮定4: 定量性。 我々は、暗黙の u 運動関数の数学的または位相的性質に関するモデリングの仮定をまだ記述していないが、これは任意の出力を生成する任意の手続きとして考えられている。 0.69
We observe, however, that when models are evaluated, there is a social desire to produce a small number of scalar scores. しかし、モデルを評価する際には、少数のスカラースコアを生成したいという社会的欲求がある。
訳抜け防止モード: しかし、我々はそれを観察する。 モデルを評価するとき 少数のスカラースコアを 作りたいという社会的欲求があります
0.70
This is reinforced by “leaderboardism” [51], and extends to the point of averaging different types of scores such as correlation and accuracy [169]. これは“リーダーボード主義”[51]によって強化され、相関や精度など、さまざまな種類のスコアを平均化する点まで拡張されます [169]。 0.75
We identify two assumptions here: first, that impacts on each individual can be reduced to a single numeric value (and thus different dimensions of impacts are commensurable5); second, that impacts across individuals are similarly commensurable. 第一に、各個人への影響は単一の数値に還元できる(従って、影響の異なる次元は可換である)、第二に、個人間の影響も同様に可換である、という仮定である。 0.65
We define ˆ𝑦 ∈ ˆ𝑌 and 𝑦 ∈ 𝑌 to be a specific model prediction, and a specific "ground truth" value respectively, leading to the Individual Quantifiability Assumption and the Collective Quantifiability Assumption, respectively. 我々は, 特定のモデル予測として, y ∈ y と y ∈ y をそれぞれ「根拠真理」の値として定義し, 個別の定量化可能性仮定と集合的定量化可能性仮定をそれぞれ導いた。 0.71
(Individual Quantifiability Assumption) (個別の定量性仮定) 0.59
(Collective Quantifiability Assumption) (集合的定量化可能性仮定) 0.48
𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦) ∈ R 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑌) ≈ 𝐸( ˆ𝑦,𝑦){𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦)} 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦) ∈ R 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑌) ≈ 𝐸( ˆ𝑦,𝑦){𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦)} 0.42
scalar statistic: 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑌) ∈ R. スカラー統計 (sscalar statistic): u {\displaystyle u} の定性(y,y) ∈ r。 0.45
Composing these assumptions with the previous ones leads to the belief that the evaluation can be summarized as a これらの仮定を以前の仮定と組み合わせることで、評価を要約できるという信念が導かれる。
訳抜け防止モード: これらの仮定を以前の仮定と組み合わせる 評価はaとして要約できるという信念につながる
0.83
Evaluation Gap 6: Incommensurables. 評価ギャップ6:不可測値。 0.72
The Quantifiability Assumptions assume that the impacts on individuals are reducible to numbers, trivializing the frequent difficulty in comparing different benefits and costs [110]. 定量化可能性の仮定は、個人への影響は数に還元可能であり、異なる利益とコストを比較することの難しさを少なくする[110]。 0.63
Furthermore, the harms and benefits across individuals are assumed to be comparable in the same scale. さらに、個人間の害と利益は、同じ規模で比較すると仮定される。 0.67
These assumptions are likely to disproportionately impact underrepresented groups, for whom model impacts might differ in qualitative ways from the well represented groups [74, 145, 146]. これらの仮定は、モデルの影響がよく表現された群 [74, 145, 146] と定性的に異なる可能性のある、過疎表現群に不均等に影響を及ぼす可能性がある。 0.62
The former groups are less likely to be represented in the ML team [172] and hence less likely to have their standpoints on harms and benefits acknowledged. 前者のグループは、MLチーム[172]で代表される可能性が低く、それゆえ、害や利益が認められるという視点を持つ可能性が低い。 0.67
Assumption 5: Failures Cases Are Eqivalent. 仮定5: 障害ケースは eqivalent である。 0.68
For classification tasks, common evaluation metrics such as accuracy or error rate model the utility of ˆ𝑌 as binary (i.e., either 1 or 0), depending entirely on whether or not it is equal to the 分類タスクにおいて、精度や誤差率モデルなどの一般的な評価指標は、二進数としての sy の効用(1 または 0 のいずれか)であり、それがそれと等しいかどうかに完全に依存する。 0.69
“ground truth” 𝑌. That is, for a binary task, 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌=0, 𝑌=0)=𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌=1, 𝑌=1)=1 and 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌=0, 𝑌=1)=𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌=1, 𝑌=0)=0. 「真理」の意。 すなわち、二元的タスクに対しては、U tility(、Y=0, Y=0)=U tility(、Y=1, Y=1)=1とU tility(、Y=0, Y=1)=U tility(、Y=1, Y=0)=0である。 0.62
5E.g. , one machine learning fairness paper says “𝑐 is the cost of detention in units of crime prevented” [39]. 5E。 ある機械学習のフェアネス紙は、”cは犯罪防止単位の拘留コスト”だと言っている[39]。 0.60
9 9 0.42
英語(論文から抽出)日本語訳スコア
𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌 = ˆ𝑦, 𝑌 = 𝑦) ≈ 1(ˆ𝑦 = 𝑦) 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦) is a function of∣ˆ𝑦 − 𝑦∣ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌 = ˆ𝑦, 𝑌 = 𝑦) ≈ 1(ˆ𝑦 = 𝑦) 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦) is a function of∣ˆ𝑦 − 𝑦∣
訳抜け防止モード: 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦 ( ˆ𝑌 = ˆ𝑦, 𝑌 = 𝑦 ) ≈ 1(ˆ𝑦 = 𝑦 ) 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, y ) は、y − y の関数である。
0.93
(Assumption of Equivalent Failures [Classification]) (等価な失敗[分類]の仮定) 0.73
Taken together with the previous assumptions, this yields 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦) = 𝑃(ˆ𝑦 = 𝑦) for classification tasks. 前述の仮定と合わせて、これは分類タスクに対して u tility(y, y) = p(y = y) を与える。 0.73
(Assumption of Equivalent Failures [Regression]) (等価な失敗[回帰]を仮定する) 0.76
Evaluation Gap 7: Disparate harms and benefits. 評価ギャップ7: 異なる害と利益。 0.65
Treating all failure cases as equivalent fails to appreciate that different classes of errors often have very different impacts [32, 133]. すべての障害ケースを同等に扱うことは、異なるエラーのクラスが、しばしば[32, 133]に非常に異なる影響を与えることを認識できない。
訳抜け防止モード: すべての障害ケースを等価として扱う 異なるエラーのクラスが、しばしば非常に異なる影響を持つと認識できない[32, 133 ]。
0.78
In multiclass classification, severely offensive predictions (e g , predicting an animal in an image of a person) are given the same weight as inoffensive ones. マルチクラス分類では、重度の攻撃的な予測(例えば、人の画像中の動物を予測する)が、悪質な予測と同じ重みを与えられる。 0.77
In regression tasks, insensitivity to either the direction of the difference ˆ𝑦 − 𝑦 or the magnitude of 𝑦 can result in evaluations being possibly poor proxies for downstream impacts. 回帰タスクでは、差 :y − y の方向や y の大きさに対する無感性は、下流の影響に対する評価が不十分である可能性がある。 0.62
(One common application use case of regression models is to apply a cutoff threshold 𝑡 to the predicted scalar values, for which both the direction of error and the magnitude of 𝑦 are relevant.) (回帰モデルの一般的な用途の1つは、誤差の方向とyの大きさの両方が関係している予測スカラー値にカットオフしきい値tを適用することである。) 0.85
Assumption 6: Test Data Validity. 仮定6: テストデータの有効性。 0.80
Taken collectively, the previous assumptions might lead one to use accuracy as an evaluation metric for a classification task. まとめると、以前の仮定は、分類タスクの評価基準として正確性を使うことにつながるかもしれない。 0.62
Further assumptions can then be made in deciding how to estimate accuracy. さらなる仮定は、精度を推定する方法を決定する際に行われる。 0.68
The final assumption we discuss here is that the test data over which accuracy (or other metrics) is calculated provides a good estimate of the accuracy of the model when embedded in the ecosystem. ここで論じる最後の仮定は、精度(または他のメトリクス)が計算されるテストデータが、エコシステムに埋め込まれた際のモデルの正確さを適切に見積もっているということです。 0.76
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
still treat certain failures as equivalent (specifically, 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌=ˆ𝑦, 𝑌=ˆ𝑦 + 𝛿)=𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌=ˆ𝑦, 𝑌=ˆ𝑦 − 𝛿), for all 𝛿, ˆ𝑦). 特定の失敗を同値(具体的には、U tility( は Y= y, Y= y + δ)=U tility( は Y= y, Y= y − δ)として扱う。 0.70
Similarly for regression tasks, common metrics such as MAE and MSE take the magnitude of error into account, yet 同様に回帰タスクでは、MAEやMSEのような一般的なメトリクスはエラーの大きさを考慮に入れていますが、 0.63
𝑃(ˆ𝑦 = 𝑦) ≈ 𝑃(ˆ𝑦 𝑃(ˆ𝑦 = 𝑦) ≈ 𝑃(ˆ𝑦 0.42
′ = 𝑦 ′) (Assumption of Test Data Validity [Classification]) ′ = 𝑦 ′) (試験データ有効性[分類]を仮定する) 0.70
where 𝑌 ′ = 𝑦′ and ˆ𝑌 ′ = ˆ𝑦′ are the ground truth labels and the model predictions on the test data, respectively. ここで、Y ′ = y′ と y ′ = y′ は、それぞれテストデータ上の基底真理ラベルとモデル予測である。 0.85
Evaluation Gap 8: Data Drifts. 評価ギャップ8: データドリフト。 0.69
A simple model of the ecosystem’s data distributions is particularly risky when system feedback effects would cause the distributions of data in the ecosystem to diverge from those in the evaluation sample [92, 106]. エコシステムのデータ分布の単純なモデルは、システムフィードバックの影響がエコシステム内のデータの分布を評価サンプル [92, 106] から逸脱させるおそれがある場合、特に危険である。 0.81
In general, this can lead to overconfidence in the system’s reliability, which can be exacerbated for regions in the tail of the input distribution. 一般に、これはシステムの信頼性の過度な信頼につながる可能性があり、入力分布の尾の領域でさらに悪化する可能性がある。 0.72
4.2 Discussion We have described six assumptions that simplify the model evaluation task. 4.2 議論 モデル評価タスクを単純化する6つの仮定について説明した。 0.63
Taken together, they would cause one to believe—with compounding risks—that a model’s accuracy is a good proxy for its fitness for an application. 複雑なリスクを伴って、モデルの正確さがアプリケーションの適合性のための適切なプロキシであると信じさせます。 0.68
We sketch this composition of assumptions in Figure 4, along with questions that illustrate the gaps raised by each assumption. 図4にこの仮定の構成をスケッチし、各仮定によって引き起こされるギャップを説明する質問を描きます。 0.66
Our reason for teasing apart these assumptions and their compounding effects is not to attack the “strawman” of naive application-centric evaluations which rely solely on estimating model accuracy. これらの仮定とそれらの複合効果を区別する理由は、モデル精度の推定のみに依存する、ナイーブなアプリケーション中心の評価の“ストルーマン”を攻撃しないからです。 0.64
Rather, our goal is to point out that most model evaluations, even sophisticated ones, make such assumptions to varying degrees. むしろ、私たちのゴールは、ほとんどのモデル評価は、洗練されたものでさえ、そのような仮定を様々な程度にしている、と指摘することです。
訳抜け防止モード: むしろ私たちの目標は ほとんどのモデル評価は、たとえ洗練されたものであっても、その仮定は様々である。
0.67
For example: • Some robustness evaluations (for surveys, see [54, 170]) explicitly tackle the problem of distribution shifts, rejecting the Assumptions of Test Data Validity without questioning the other assumptions we have identified. 例えば: •いくつかの堅牢性評価(調査では[54, 170])は、我々が特定した他の仮定に疑問を抱かずに、テストデータ妥当性の仮定を拒絶して、分散シフトの問題に明示的に取り組む。
訳抜け防止モード: 例えば: •いくつかの堅牢性評価(調査については、[54, 170 ]を参照)は、分布シフトの問題に明示的に取り組む。 テストデータの有効性の仮定を拒否する。
0.70
• Some sensitivity evaluations consider the effect on the model predictions of small changes in the input, but use accuracy as an evaluation metric, rejecting the Input Myopia Assumption without questioning the others [139]. • 感度評価では、入力の小さな変化に対するモデル予測への影響を考慮しつつ、精度を評価指標として用い、入力ミオピア推定を疑わずに拒否する例もある[139]。 0.85
• Some fairness evaluations perform disaggregated analyses using the Recall or Precision metrics, sticking by all •一部の公正度評価は、リコールまたは精度測定値を用いて、全てにこだわる分解分析を行う。
訳抜け防止モード: •一部の公正度評価は、リコールまたは精度測定値を用いて分解分析を行う。 こっそりと
0.64
assumptions other than Input Myopia and Equivalent Failures [37, 71]. 入力ミオピアと等価失敗以外の仮定 [37, 71] 0.70
10 10 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Assumption Considerations that might be Overlooked 推定 見過ごされる可能性の考察 0.62
𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) Application-centric evaluation Opportunities for scientific insights. Understand(Model + Ecosystem) 科学的洞察のためのアプリケーション中心の評価機会。 0.76
≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑋, 𝑌) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦( ˆ𝑌, 𝑌) ≈ 𝐸( ˆ𝑌= ˆ𝑦,𝑌=𝑦){𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, 𝑦)} ≈ 𝑃(ˆ𝑦 = 𝑦) ≈ 𝑃(ˆ𝑦′ = 𝑦′) for an application (𝑈 𝑛𝑑𝑒𝑟𝑠𝑡𝑎𝑛𝑑(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚)) to one of calculating accuracy over a data sample. あるアプリケーション(u nderstand(model + ecosystem))に対して、そのアプリケーション(u nderstand(model + ecosystem))に対して、そのアプリケーション(u nderstand(model + ecosystem))に対して、そのアプリケーション(u nderstand(model + ecosystem))に対して、そのアプリケーション(u nderstand(model + ecosystem))に対して、そのアプリケーション(モデル+エコシステム)に対して、そのアプリケーション(モデル+エコシステム)に対する精度を計算した。
訳抜け防止モード: ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(𝑀𝑜𝑑𝑒𝑙 + 𝐸𝑐𝑜𝑠𝑦𝑠𝑡𝑒𝑚 ) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦 ( ˆ𝑌, 𝑋, 𝑌 ) ≈ 𝑈 𝑡𝑖𝑙𝑖𝑡𝑦 ( ˆ𝑌, 𝑌 ) ≈ 𝐸 ( ˆ𝑌= ˆ𝑦,𝑌=𝑦){𝑈 𝑡𝑖𝑙𝑖𝑡𝑦(ˆ𝑦, アプリケーション (u nderstand(model + ecosystem ) ) に対して、データサンプルの計算精度の1つである。
0.66
A pseudo-formal notation Data sourcing and processing; invisible labour; consultation with impacted communities; motives; public acceptance; human rights. 擬似形式表記法 データソーシングと処理、見えない労働力、影響のあるコミュニティとの協議、動機、公的受容、人権。 0.69
System feedback loops; humans-in-the-loop. システムフィードバックループ — ループ内の人間。 0.66
Disaggregated analyses; sensitivity analyses; safety-critical edge cases. 分散分析、感度分析、安全性クリティカルエッジケース。 0.68
Different flavors of impacts on a single person; different flavors of impacts across groups. 個人に対する影響は異なるが、グループ間で異なる影響がある。 0.63
Severe failure cases; confusion matrices; topology of the prediction space. 深刻な障害ケース、混乱行列、予測空間のトポロジー。 0.52
Data sampling biases; distribution shifts. データサンプリングバイアス; 分散シフト。 0.68
Table 4. Sketch of how the six assumptions of Section 4—when taken collectively—compose to simplify the task of evaluating a model 表4。 第4節の6つの仮定がどう構成され、モデルを評価する作業が単純化されるかのスケッチ 0.52
Abstractability from Context Input Myopia 文脈入力マイオピアからの抽象性 0.55
(akin to pseudo-code) is used to enable rapid glossing of the main connections. (擬似コードと同様)主接続の迅速な光沢化を可能にするために用いられる。 0.66
𝑌 = 𝑦 and ˆ𝑌 = ˆ𝑦 denote the true (unobserved) distributions of ground truth and model predictions, respectively, while the variables 𝑌 ′ = 𝑦′ and ˆ𝑌 ′ = ˆ𝑦′ denote the samples of reference labels and model predictions over which accuracy is calculated in practice. Y = y と y = y はそれぞれ基底真理とモデル予測の真(観測されていない)分布を表し、変数 Y ′ = y′ と y ′ = y′ は基準ラベルのサンプルであり、精度が実際に計算されるモデル予測である。 0.87
The order of the assumptions reflects an increasing focus on technical aspects of model evaluation, and a corresponding minimizing of non-technical aspects. 仮定の順序は、モデル評価の技術的側面の増大と、非技術的側面の最小化を反映している。 0.65
Appendix C illustrates how each of the sets of considerations might apply in a hypothetical application of a computer vision model. Appendix Cは、コンピュータビジョンモデルの仮説的応用において、それぞれの考慮事項がどのように適用されるかを説明する。
訳抜け防止モード: Appendix Cはどのように それぞれの考慮事項は、コンピュータビジョンモデルの仮説的な応用に適用できるかもしれない。
0.73
Consequentialism Quantitative Modeling 連続主義 定量的モデリング 0.68
Equivalent Failures Test Data Validity 同等の失敗 テストデータ妥当性 0.70
It may not be possible to avoid all of the assumptions all of the time; nevertheless unavoidable assumptions should be acknowledged and critically examined. すべての仮定を常に避けることは不可能かもしれない;それでも避けられない仮定は認識され、批判的に検討されるべきである。 0.58
The six assumptions we have identified also provide a lens for assessing the consistency of some evaluation metrics with other assumptions that have been made during the evaluation, for example • Is 𝐹-score consistent with an utilitarian evaluation framework? 私たちが特定した6つの仮定は、例えば、評価中に行われた他の仮定と、いくつかの評価指標の整合性を評価するためのレンズも提供します。 0.67
The 𝐹-score is mathematically a harmonic mean— which is often appropriate for averaging pairs of rates (e g , two speeds). Fスコアは数学的には調和平均であり、平均的な2つの速度(例えば2つの速度)に適している。 0.64
When applied to Precision and Recall, however, the 𝐹-score constitutes a peculiar averaging of “apples and oranges,” since, when conceived as rates, Precision and Recall measure rates of change of different quantities, [130]. しかし、精度とリコールに適用した場合、Fスコアは、異なる量の変化率のレート、精度、リコールのレートとして考えられた場合、[130]から「アプルズとオレンジ」の特異な平均値を構成する。
訳抜け防止モード: しかし、正確さとリコールに適用されると、f-scoreは「リンゴとオレンジ」の特異な平均値を構成する。 それゆえ, レート, 精度, リコールは, 異なる量の変化率, [130] を計測した。
0.72
𝐹-score is thus difficult to interpret within an evaluation framework that aims to maximize model utility. したがって、Fスコアはモデルユーティリティの最大化を目的とした評価フレームワーク内での解釈が難しい。
訳抜け防止モード: このようにFスコアは難しい モデルユーティリティの最大化を目的とした評価フレームワーク内での解釈。
0.67
• Do threshold-free evaluations such as the Area Under the Receiver Operating Characteristic (auroc) abstract too much of the deployment context? • 受信者動作特性(auroc)の下の領域のようなしきい値なしの評価は、デプロイコンテキストを抽象化しすぎているか? 0.75
Since auroc is calculated by averaging over a range of possible threshold values, it “cannot be interpreted as having any relevance to any particular classifier” [129] (which is not saying auroc is irrelevant to evaluating the learner, cf. Section 2, nor to a learned model’s propensity to correctly rank positive instances above negative ones). aurocは、可能なしきい値の範囲を平均することで計算されるため、“特定の分類器に何らかの関連性を持つとは解釈できない”[129](これは、aurocが学習者、cf.セクション2の評価に無関係であるという意味ではないし、学習したモデルの正のインスタンスを負のインスタンスより正しくランク付けする傾向にも関係していない)。 0.69
The same argument can be made for the Mean Average Precision metric used in image classification (see Appendix A). 同じ主張は、画像分類で使われる平均精度測定値に対してできる(Appendix Aを参照)。 0.72
For useful application-centric evaluations, it is more meaningful to report 有用なアプリケーション中心の評価は、より有意義である 0.74
pairs of(𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛, 𝑅𝑒𝑐𝑎𝑙𝑙) values (for all classes) for a range of threshold values [128]. 一連のしきい値 [128] に対する(すべてのクラスに対して)値のペア(Precision, Recall)。 0.83
In both cases, we ask whether such metrics are of limited utility in application-centric evaluations and whether they are better left to learner-centric ones. どちらの場合も、アプリケーション中心の評価においてそのような指標が限られた有効性であるかどうか、学習者中心の評価に適しているかどうかを問う。 0.46
5 CONTEXTUALIZING APPLICATION-CENTRIC MODEL EVALUATIONS 5 コンテクチュアライズ応用中心モデル評価 0.66
the ornithologists were forced to adapt their behavior (for the sake of “science”) to the most primitive evaluation method which was the only one considered or known, or else throw their data away. 鳥類学者たちは、自分たちの行動(“科学”のために)を、唯一考えられるか、知られているか、あるいはデータを捨てる最も原始的な評価方法に適応せざるを得なかった。 0.66
— Hampel [70] 11 -ハンペル[70] 11 0.57
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
When applications of ML models have the potential to impact human lives and livelihoods, thorough and reliable evaluations of models are critical. MLモデルの応用が人間の生活や生活に影響を与える可能性がある場合、モデルの徹底的で信頼性の高い評価が重要である。
訳抜け防止モード: MLモデルの応用が人間の生活や生活に影響を与える可能性がある場合。 モデルの評価は 徹底的で信頼性が高い
0.72
As discussed in Section 3, the different goals and values of academic ML research communities mean that research norms cannot be relied upon as guideposts for evaluating models for applications. 第3節で論じられているように、学術ML研究コミュニティの目標と価値の相違は、研究規範を応用モデルを評価するための指針として信頼できないことを意味する。 0.65
In this section, we propose steps towards evaluations that are rigorous in their methods and aim to be humble about their epistemic uncertainties. 本稿では,その方法に厳格な評価方法を提案するとともに,その不確実性に対する謙虚さを追求する。 0.64
In doing so, we expand on the call by Raji et al to pay more attention not just to evaluation metric values but also to the quality and reliability of the measurements themselves, including sensitivity to external factors [135]. このような中で,Rajiらは,測定値の評価だけでなく,外部要因への感受性など,測定内容の質や信頼性にも注意を払っている [135]。 0.66
5.1 Minding the Gaps between Evaluation Goals and Research Practice Documenting assumptions made during model evaluation is critical for transparency and enables more informed decisions. 5.1 評価目標と研究実践文書のギャップを念頭において、モデル評価中になされた仮定は透明性に欠かせないものであり、より情報的な決定を可能にする。
訳抜け防止モード: 5.1 評価目標のギャップとモデル評価における研究実践文書化の前提 透明性に重要であり、より情報的な意思決定を可能にします。
0.72
If an assumption is difficult to avoid in practice, consider augmenting the evaluation with signals that may shed complementary light on questions of concern. 実際には避けることが難しい場合、懸念事項に補完的な光をあてる信号による評価の強化を検討する。
訳抜け防止モード: ある仮定が実際には避けがたい場合、考慮する 問題に対する補完的な光を放つ可能性のある信号で 評価を増強する
0.73
For example, even a handful of insightful comments from members of impacted communities can be an invaluable complement to evaluations using quantitative metrics. 例えば、影響のあるコミュニティのメンバーからの一握りの洞察に富んだコメントでさえ、定量的なメトリクスを使って評価を補完する貴重なものだ。 0.59
We now consider specific mitigation strategies for each of the gaps in turn. 現在、各ギャップに対する具体的な緩和戦略を検討しています。 0.66
Minding Gap 1: Evaluate More than Conseqences. minding gap 1: 簡潔性以上の評価を行う。 0.64
To reduce the gap introduced by the Consequentialism Assumption, evaluate the processes that led to the creation of the model, including how datasets were constructed [150]. 帰納主義の仮定によってもたらされるギャップを減らすために、データセットの構築方法を含むモデルの作成に繋がるプロセスを評価します [150]。 0.81
We echo calls for more reflexivity around social and intentional factors around model development [116], more documentation of the complete lifecycle of model development [82, 167], and greater transparency around ML models and their datasets [13, 62, 117]. 私たちは、モデル開発に関する社会的および意図的な要因に関する反射性(116])、モデル開発の全ライフサイクルに関するドキュメント(82, 167]、mlモデルとそのデータセット(13, 62, 117])に関する透明性の向上を求めている。 0.77
It may be appropriate to contemplate whether the model is aligned with the virtues the organization aspires to [165]. モデルが組織が [165] を志す美徳と一致しているかを熟考するのは適切かもしれません。 0.70
Consider the question of whether any ML model could be a morally appropriate solution in this application context, e g , whether it is appropriate to make decisions about one person on the basis of others’ behaviors [49]. このアプリケーションコンテキストにおいて、任意のMLモデルが道徳的に適切なソリューションであるかどうかという問題、例えば、ある人の行動に基づいて決定を下すのが適切かどうかを考えてみましょう [49]。 0.70
Minding Gap 2: Center Obligations. minding gap 2: 中心となる責務。 0.69
Since reasoning about uncertain future states of the world is fraught with challenges [29], evaluations should consider indirect consequences and assess how the model upholds social obligations within the ecosystem. 世界の不確実な将来状態の推論には課題[29]が伴うため、間接的な帰結を考慮し、モデルが生態系内の社会的義務をどう支えているかを評価する必要がある。 0.53
This may involve processes such as assessments of human rights, social and ethical impact [109, 114], audits of whether the ML system upholds the organization’s declared values or principles [136], and/or assessments of the potential for privacy leakage (e g , [30, 175]). これには人権の評価、社会的および倫理的影響[109,114]、MLシステムが宣言された価値や原則を支持しているかどうかの監査[136]、および/またはプライバシー漏洩の可能性の評価(例:[30,175])などのプロセスが含まれる。 0.78
Minding Gap 3: Demarginalize the Context. minding gap 3: コンテキストの非マージ化。 0.69
To address the gap introduced by the Assumption of Abstractability from Context, consider externalities such as energy consumption [75, 152], as well as resource requirements [51]. コンテキストからの抽象化可能性の推定によるギャップに対処するために、エネルギー消費[75, 152]やリソース要求[51]といった外部性を検討する。 0.75
It is important to think about how the human and technical parts of the system will interact [111, 154]. システムの人的および技術的部分がどのように相互作用するかを考えることが重要です [111, 154]。 0.80
Note that when substituting one model for another—or for displaced human labor—system stability can itself be a desirable property independent of model accuracy (and perhaps counter to tech industry discourses of “disruption” [64]), and a range of metrics exist for comparing predictions with those of a legacy model [47]. 1つのモデルを別のモデルに置き換える場合(または、人的労働を置き換える場合)、システムの安定性はモデル精度とは無関係に望ましい特性となり得る(そして、おそらく技術産業における「破壊」 [64] の言説に反する)。 0.69
Care should be taken to avoid the “portability trap” of assuming that what is good for one context is good for another [154]. あるコンテキストにとってよいものが別の[154]にとってよいと仮定する“可搬性トラップ”を避けるために注意する必要がある。 0.71
The more attention paid to the specifics of the application context, the better; hence, metrics which assume no particular classification threshold, such as AUC, may provide limited signal for any single context. したがって、AUCのような特定の分類しきい値を前提としないメトリクスは、単一のコンテキストに対して限られた信号を提供する可能性がある。
訳抜け防止モード: アプリケーションコンテキストの仕様にもっと注意を払うほど、より良くなります。 それゆえ、メトリクスは aucのような特定の分類しきい値が1つの文脈に制限された信号を与えるものではないと仮定する。
0.54
Minding Gap 4: Make Subjectivities Transparent. minding gap 4: 主観性を透明にする。 0.68
Acknowledge the subjectivities inherent in many tasks [2]. 多くのタスクに内在する主観性 [2]。 0.63
An array of recent scholarship on subjectivity in ML has “embraced disagreement” through practices of explicitly modeling—in both the data model and the ML model—inter-subject variation in interpretations [7, 12, 45, 48, 55]. MLにおける主観性に関する最近の奨学金は、データモデルとMLモデルの両方において、解釈 [7, 12, 45, 48, 55] におけるオブジェクト間の変動を明示的にモデル化する慣行を通じて、不一致を招いた。 0.68
For the purposes of ML model evaluations, disaggregating labels on test data according to the cultural and socio-demographic standpoints of their annotators enables more nuanced disaggregated evaluation statistics [131]. mlモデル評価の目的で、その注釈者の文化的・社会デポグラフィー的観点から、テストデータ上のラベルを分解することで、よりニュアンス的な評価統計が可能となる[131]。
訳抜け防止モード: mlモデルの評価のために テストデータにラベルを分類する文化的・社会的視点による分類法 よりニュアンス的な分散評価統計 [131 ] を可能にする。
0.75
12 12 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Minding Gap 5: Respect Differences Between Inputs. minding gap 5: 入力間の差異を尊重する。 0.76
A realistic “null hypothesis” is that misclassifications affect people in the application ecosystem disparately. 現実的な“null仮説”は、誤った分類がアプリケーションエコシステムの人々に異なって影響する、というものだ。 0.57
For example, people may differ both in their preferences regarding model predictions ˆ𝑌 per se, as well as their preferences regarding model accuracy ˆ𝑌 = 𝑌 [17].6 例えば、人々はモデル予測に関する好みとモデルの正確性に関する好みの両方が異なるかもしれない。
訳抜け防止モード: 例えば、人々はモデル予測に関する好みにおいて、それぞれ異なるかもしれません。 モデル精度に関する好みだけでなく、Y = Y [ 17].6
0.78
As such—and independent of fairness considerations—evaluations should be routinely pay attention to different parts of the input distribution, including disaggregating along social subgroups. 公平性の考慮から独立して、評価は、社会的サブグループに沿って分散するなど、入力分布の異なる部分に日常的に注意を払うべきである。
訳抜け防止モード: したがって、公平性を考慮した評価は、入力分布の異なる部分に常に注意を払うべきである。 社会サブグループを 分離するなどです
0.61
Special attention should be paid to the tail of the distribution and outliers during evaluation, as these may require further analysis to diagnose the potential for rare but unsafe impacts. これらは稀だが安全でない影響の可能性を診断するためにさらなる分析を必要とする可能性があるため、評価中の分布と異常値の尾に特別な注意を払う必要がある。 0.69
Input sensitivity testing can provide useful information about the sensitivity of the classifier to dimensions of input variation known to be of concern (e g , gender in text [21, 66, 80, 180]). 入力感度テストは、関心のある入力変動の大きさ(例えば、テキスト[21, 66, 80, 180]における性別)に対する分類器の感度に関する有用な情報を提供することができる。 0.86
Minding Gap 6: Think Beyond Scalar Utility. Minding Gap 6: Scalar Utilityを越えて考える。 0.91
Resist the temptation to reduce a model’s utility to a single scalar value, either for stack ranking [51] or to simplify the cognitive load on decision makers. スタックランキング [51] や意思決定者に対する認知的負荷を単純化するために、モデルのユーティリティを単一のスカラー値に減らす誘惑に抵抗する。
訳抜け防止モード: モデルのユーティリティを1つのスカラー値に縮小するために誘惑を復活させる。 スタックランキング[51]または 意思決定者の認知負荷を 単純化するためです
0.75
Instead, include a range of different metrics and evaluation distributions in the evaluation [117]. 代わりに、評価[117]にさまざまなメトリクスと評価分布を含めます。 0.69
Acknowledge and report epistemic uncertainty, e g , the effects of missing data or measurement and sampling error on metrics. 認識の不確実性、例えば、データの欠如や測定とサンプリングエラーがメトリクスに与える影響を認識および報告する。 0.74
Acknowledge qualitative impacts that are not addressed by metrics (e g , harms to application users caused by supplanting socially meaningful human interactions), and rigorously assess the validity of attempts to measure social or emotional harms. メトリクスによって対処されない質的影響(例えば、社会的に有意義な人間のインタラクションを置き換えることによるアプリケーションユーザへの損害)を認め、社会的または感情的な損害を測定する試みの妥当性を厳密に評価する。 0.67
Be conservative in aggregations: consider plotting data rather than reporting summary statistics (cf. Anscombe’s quartet); do not aggregate unlike quantities; report multiple estimates of central tendency and variation; and don’t assume that all users of an application will have equal benefits (or harms) from system outcomes. 要約統計を報告するのではなく、データをプロットすること(Anscombeの四重項を参照)、異なる量のデータを集約しないこと、中央の傾向と変動の複数の見積を報告すること、アプリケーションのすべてのユーザがシステムの結果から平等に利益(あるいは害)を得られると仮定しないこと。 0.73
Consider applying aggregation and partial ranking techniques from the fair division literature to ML models, including techniques that give greater weight to those with the worst outcomes (e g , in the extreme case, “Maximin”) [50]. 最悪の結果(極端な場合、"maximin")を持つ人たちに重みを与えるテクニックを含む、公正な分割文学からmlモデルへの集約と部分的ランキング技術の適用について検討する [50]。 0.65
Minding Gap 7: Respect Differences Between Failures. Minding Gap 7: 失敗の相違を無視する。 0.74
If the harms of false positives and false negatives are incommensurable, report them separately. 偽陽性と偽陰性の害が相容れない場合は、別々に報告する。 0.66
If commensurable, weight each appropriately. 快適な場合、それぞれに重みがある。 0.51
For multiclass classifiers, this approach generalizes to a classification cost matrix [163], and, more generally, including the confusion matrix before costs are assigned; for regression tasks, report metrics such as MSE disaggregated by buckets of 𝑌. 多クラス分類器の場合、このアプローチは分類コスト行列 [163] に一般化され、より一般的には、コストが割り当てられる前の混乱行列を含む。
訳抜け防止モード: 多クラス分類器では、このアプローチは分類コスト行列 [163 ] に一般化される。 さらに一般的には、コストが割り当てられる前の混乱行列を含む。 yのバケットで分散したmseなどのメトリクスをレポートする。
0.76
Minding Gap 8: Validate Quality of Test Data. minding gap 8: テストデータの品質を検証する。 0.86
For transparency, do not assume it is obvious to others which datasets are used in training and evaluation; instead, be explicit about the provenance, distribution, and known biases of the datasets in use [6]. 透明性のために、トレーニングや評価にデータセットが使用されているのは他にとって明らかではない、と仮定してはならない。
訳抜け防止モード: 透明性のためには データセットがトレーニングや評価に使われているのは明らかです 代わりに、使用中のデータセットの出所、分布、既知のバイアスについて明確にしてください [6]。
0.73
Consider Bayesian approaches to dealing with uncertainty about data distributions [90, 98, 115], especially when sample sizes are small or prior work has revealed systematic biases. データ分布の不確実性を扱うベイズ的アプローチ(90,98,115)を考える。
訳抜け防止モード: データ分布の不確実性 [90, 98, 115] を扱うベイズ的アプローチを考える。 特にサンプルサイズが小さい場合や以前の作業では、系統的なバイアスが明らかになる。
0.71
For example, an evaluation which uses limited data in a novel domain (or in an under-studied language) to investigate gender biases in pronoun resolution should be tentative in drawing strong positive conclusions about “fairness” due to abundant evidence of gender biases in English pronoun resolution models (e g [171]). 例えば、英語の代名詞解決モデル(例えば[171])における男女バイアスの豊富な証拠から、代名詞解決における性別バイアスを調査するために、新しいドメイン(または未研究言語)における限られたデータを用いた評価は、「公正性」に関する強い肯定的な結論を導出する際、仮に必要である。 0.68
5.2 Alternate Model Evaluation Methodologies More radical excursions from the disciplinary paradigm are often worth considering, especially in scenarios with high stakes or high uncertainty. 5.2 代替モデル評価手法 規律パラダイムからのより急進的な帰納は、特に高い利害や不確実性のあるシナリオにおいて、考慮に値することが多い。 0.57
Evaluation Remits. In 1995, Sparck Jones and Galliers called for a careful approach to NLP evaluation that is broadly applicable to ML model evaluations (see Appendix D) [91]. 評価基準。 1995年、Sparck Jones と Galliers は、MLモデル評価に広く適用可能な NLP 評価への慎重なアプローチを要求した(Appendix D を参照)。
訳抜け防止モード: 評価基準。 1995年、Sparck Jones と Galliers は NLP 評価への慎重なアプローチを要求した。 MLモデルの評価に広く適用できます(Appendix D 参照) [ 91 ]
0.69
Their approach involves a top-down examination of the context and goal of the evaluation before the evaluation design even begins, and their call for careful documentation of the evaluation “remit”—i.e., official responsibilities—is in line with more recent work calling for stakeholder transparency 彼らのアプローチは、評価設計が始まっても評価のコンテキストと目標をトップダウンで検証し、評価の"コミット(remit)"(公式な責任)の注意深く文書化を求めることは、ステークホルダーの透明性を求める最近の作業と一致している。 0.71
6Note that in many real-world applications the “ground truth” variable 𝑌 may be a convenient counterfactual fiction, since the system’s actions on the basis of the prediction ˆ𝑌 may inhibit 𝑌 from being realised—for example, a finance ML model may predict a potential customer would default on a loan if given one, and hence the system the model is deployed in may prevent the customer getting a loan in the first place. 6 現実世界の多くの応用において、「地上の真理」変数Yは、予測に基づくシステムの行動がYの実現を阻害する可能性があるため、便利な偽造である可能性があることに留意すること。例えば、金融MLモデルは、もし与えられた場合、潜在的な顧客がローンをデフォルトにすると予測し、従って、モデルが展開されるシステムは、顧客が第一に融資を受けるのを妨げかねない。 0.73
13 13 0.85
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
for ML [82, 136]. ML [82, 136] の場合。 0.79
They advocate for establishing whose perspectives are adopted in the evaluation and whose interests prompted it. 彼らは、どの視点が評価に採用され、その関心がそれを促進させるかの確立を提唱する。 0.43
Appendix D sketches how Sparck Jones and Galliers’ framework could be adopted for ML model evaluations. Appendix Dは、Sparck JonesとGalliersのフレームワークがMLモデル評価にどのように採用できるかをスケッチしている。
訳抜け防止モード: Appendix Dはどのようにスケッチするか Sparck Jones と Galliers のフレームワークは ML モデル評価に適用できる。
0.78
Active Testing. Active Testing aims to iteratively choose new items that are most informative in addressing the goals of the evaluation [69, 95] (cf. its cousin Active Learning, which selects items that are informative for the learner). アクティブテスト。 Active Testingは、[69, 95]の目標に対処する上で最も有意義な新しい項目を反復的に選択することを目的としている(従兄弟のActive Learningでは、学習者に有益な項目を選択する)。 0.73
Active Testing provides a better estimate of model performance than using the same number of test instances sampled I.I.D. Exploring Active Testing in pursuit of fairness testing goals seems a promising direction for future research. アクティブテストは、サンプル化されたI.I.D.と同じ数のテストインスタンスを使用するよりも、モデルパフォーマンスの見積もりが優れている。
訳抜け防止モード: アクティブテストはモデルパフォーマンスをより良い見積もりにする 同じ数のテストインスタンスを使って、フェアネステストの目標を追求するアクティブテストを探る。 将来の研究にとって有望な方向のようだ。
0.73
Adversarial Testing. In many cases, there is great uncertainty regarding an application deployment context. 反対テスト。 多くの場合、アプリケーションのデプロイメントコンテキストには大きな不確実性があります。 0.59
One cautious and conservative approach—especially in the face of great uncertainty—is to simulate “adversaries” trying to provoke harmful outcomes from the system. 特に大きな不確実性に直面した慎重で保守的なアプローチの1つは、システムから有害な結果をもたらす「敵」をシミュレートすることである。
訳抜け防止モード: 特に大きな不確実性に直面した慎重で保守的なアプローチの1つは システムから有害な結果を引き起こす“敵”をシミュレートする。
0.67
Borrowing adversarial techniques from security testing and privacy testing, adversarial testing of models requires due diligence to trigger the most harmful model predictions, using either manually chosen or algorithmically generated test instances [52, 144, 176, 178]. セキュリティテストとプライバシテストの敵対的テクニックを借用して、モデルの敵対的テストは、手動で選択したテストインスタンスとアルゴリズムで生成されたテストインスタンス(52, 144, 176, 178]のいずれかを使用して、最も有害なモデル予測をトリガするデューデリジェンスを必要とする。
訳抜け防止モード: セキュリティテストとプライバシテストから敵意のテクニックを借用する モデルの敵対的テストは、最も有害なモデル予測を引き起こすためにデューデリジェンスを必要とする。 手動選択またはアルゴリズムで生成されたテストインスタンス [52, 144, 176, 178 ] を使用する。
0.73
Multidimensional Comparisons. When comparing candidate models, avoid the “Leaderboardism Trap” of believing that a total ordering of candidates is possible. 多次元比較。 候補モデルを比較する場合、候補全体の順序付けが可能であると信じる“リーダーボーディズムの罠”を避ける。 0.58
A multidimensional and nuanced evaluation may provide at best a partial ordering of candidate models, and it may require careful and accountable judgement and qualitative considerations to decide among them. 多次元的・ニュアンス的評価は、候補モデルの順序付けを最善に提供しうるし、その決定には慎重で説明責任のある判断と質的考察が必要である。 0.63
The Fair Division literature on Social Welfare Orderings may be a promising direction for developing evaluation frameworks that prioritize “egalitarian” considerations, in which greater weighting is given to those who are worst impacted by a model [50]. 社会福祉秩序に関するフェアディビジョンの文献は、モデル [50] に最も影響の大きい人に重み付けを施す「平等主義」を優先する評価枠組みを開発する上で、有望な方向かもしれない。 0.61
5.3 Evaluation-driven ML Methodologies In this section, we follow Rostamzadeh et al in drawing inspiration from test-driven practices, such as those of software development [143]. 5.3 評価駆動型ML手法 この節では、ソフトウェア開発のようなテスト駆動型プラクティスからインスピレーションを得たRostamzadeh氏らをフォローします [143]。 0.70
Traditional software testing involves significant time, resources, and effort [72]; even moderatesized software projects spend hundreds of person-hours writing test cases, implementing them, and meticulously documenting the test results. 伝統的なソフトウェアテストにはかなりの時間、リソース、労力が伴います [72]; 中規模のソフトウェアプロジェクトでさえ、数百時間かけてテストケースを書き、それらを実装し、慎重にテスト結果を文書化しています。 0.59
In fact, software testing is sometimes considered an art [120] requiring its own technical and non-technical skills [112, 148], and entire career paths are built around testing [42]. 実際、ソフトウェアテストは時として、独自の技術と非技術スキルを必要とする芸術(112,148]と見なされ、キャリアパス全体がテストを中心に構築されています [42]。 0.75
Test-driven development, often associated with agile software engineering frameworks, integrates testing considerations in all parts of the development process [8, 65]. テスト駆動開発は、しばしばアジャイルソフトウェアエンジニアリングフレームワークと関連付けられ、開発プロセスのすべての部分にテストの考慮事項を統合する [8, 65]。 0.81
These processes rely on a deep understanding of software requirements and user behavior to anticipate failure modes during deployment and to expand the test suite. これらのプロセスは、デプロイ中の障害モードを予測し、テストスイートを拡張するために、ソフトウェア要件とユーザの振る舞いの深い理解に依存しています。 0.57
(In contrast, ML testing is often relegated to a small portion of the ML development cycle, and predominantly focuses on a static snapshot of data to provide performance guarantees.) (対照的に、MLテストはML開発サイクルのごく一部に委ねられることが多く、主にパフォーマンスを保証するためにデータの静的スナップショットに焦点を当てている)。 0.68
These software testing methodologies provide a model for ML testing. これらのソフトウェアテスト方法論は、MLテストのモデルを提供する。 0.62
First, the model suggests anticipating, planning for, and integrating testing in all stages of the development cycle, research problem ideation, the setting of objectives, and system implementation. 第一に、モデルは開発サイクル、研究課題の構想、目的の設定、システム実装のあらゆる段階におけるテストの予測、計画、統合を提案します。 0.68
Second, build a practice around bringing diverse perspectives into designing the test suite. 第二に、さまざまな視点をテストスイートの設計に適用するプラクティスを構築すること。 0.67
Additionally, consider participatory approaches (e g , [111]) to ensure that the test suite accounts for societal contexts and embedded values within which the ML system will be deployed. さらに、テストスイートがmlシステムがデプロイされる社会的なコンテキストと組み込み値の責任を負うことを保証するために、参加型アプローチ (例えば[111]) も検討する。 0.63
An important principle in test-driven software development is visibility into the test data. テスト駆動ソフトウェア開発における重要な原則は、テストデータの可視性である。 0.69
Typically, engineers working on a system can not only see the details of the test suites but also often develop those test suites themselves. 通常、システムに取り組んでいるエンジニアはテストスイートの詳細を見るだけでなく、テストスイート自体の開発もしばしば行います。 0.74
In contrast, the paradigm of ML evaluation methodologies is that the ML practitioner should not inspect the test data, lest their observations result in design decisions that produce an overfitted model. 対照的に、ml評価方法論のパラダイムは、ml実践者がテストデータを検査すべきではなく、その観察結果が過剰に適合したモデルを生成する設計決定の結果をもたらすのを避けることである。
訳抜け防止モード: 対照的に、ML評価方法論のパラダイムは、ML実践者がテストデータを検査するべきではないことである。 彼らの観察は 過度に適合したモデルを生み出す設計上の決定をもたらす
0.70
How, then, can these two methodologies be reconciled? では、この2つの方法論はどのように和解できるのか? 0.56
We believe that incentives are one important consideration. インセンティブは重要な考慮事項のひとつだと思います。 0.47
In the ML research community, the “competition mindset” might indeed lead to “cheating” via deliberate overfitting. ml研究コミュニティでは、"競合マインドセット"が意図的な過剰フィッティングを通じて“リラックス”につながる可能性がある。 0.53
In contrast, in real-world applications model developers might benefit from a healthy model ecosystem, for example when they are members of that ecosystem. 対照的に、現実世界のアプリケーションでは、例えばそのエコシステムのメンバーである場合、開発者は健全なモデルエコシステムの恩恵を受けるでしょう。 0.67
(However, when developers come from a different society altogether there may be disinterest or disalignment [145].) (ただし、開発者が全く別の社会からやって来た場合、不利や不和があるかもしれない[145]。) 0.72
14 14 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Software testing produces artifacts such as execution traces, and test coverage information [72]. ソフトウェアテストは、実行トレースやテストカバレッジ情報などの成果物を生成する [72]。 0.86
Developing practices for routinely sharing testing artifacts with stakeholders provides for more robust scrutiny and diagnosis of harmful error cases [136]. ステークホルダーとテストアーティファクトを日常的に共有するプラクティスを開発することで、より堅牢な検査と有害なエラーケースの診断が可能になる[136]。
訳抜け防止モード: テスト成果物をステークホルダーと日常的に共有するプラクティスの開発 より堅牢な精査と有害なエラー事例の診断を提供する[136]。
0.77
In being flexible enough to adapt to the information needs of stakeholders, software testing artifacts can be considered a form of boundary object [158]. ステークホルダーの情報要求に対応するのに十分な柔軟性がある場合、ソフトウェアテスティングの成果物は境界オブジェクトの形式と見なすことができます [158]。 0.74
Within an ML context, these considerations point towards adopting ML transparency mechanisms incorporating comprehensive evaluations, such as model cards [117]. MLのコンテキスト内では、モデルカード[117]のような包括的な評価を取り入れたML透明性メカニズムの採用が検討されている。
訳抜け防止モード: MLコンテキスト内のこれらの考慮事項は、 モデルカード[117 ]のような包括的な評価を取り入れたML透明性メカニズムの採用。
0.74
The processes that go into building test cases should be documented, so the consumer of the ML system can better understand the system’s reliability. テストケースを構築するプロセスは文書化する必要があるため、mlシステムのコンシューマはシステムの信頼性をより理解することができる。 0.78
Finally, as for any high-stakes system—software, ML or otherwise—evaluation documentation constitutes an important part of the chain of auditable artifacts required for robust accountability and governance practices [136]. 最後に、ソフトウェア、MLなど、あらゆる高度なシステムについて、評価ドキュメントは、堅牢な説明責任とガバナンスのプラクティスに必要な監査可能なアーティファクトの連鎖の重要な部分を占めています [136]。 0.56
6 CONCLUSIONS In this paper, we compared the evaluation practices in the ML research community to the ideal information needs of those who use models in real-world applications. 6 ConCLUSIONS この論文では,ML研究コミュニティにおける評価実践を,実世界のアプリケーションでモデルを使用する人々の理想的な情報ニーズと比較した。 0.84
The observed disconnect between the two is likely due to differences in motivations and goals, and also pressures to demonstrate “state-of-the-art” performance on shared tasks, metrics and leaderboards [51, 93, 161], as well as a focus on the learner as the object upon which the researcher hopes to shed light. モチベーションと目標の違いや、共有タスクやメトリクス、リーダーボード [51, 93, 161] における“最先端”のパフォーマンスの実証と、研究者が光を当てたい対象としての学習者に焦点を当てることによる、この2つの分離が観測される可能性が高い。 0.75
One limitation of our methodology is reliance on published papers, and we encourage more human subjects research in the future, in a similar vein to e g [77, 108, 147]. 我々の方法論の1つの制限は、出版論文への依存であり、eg[77, 108, 147]と似た形で、将来的にはより人間による研究を奨励する。 0.71
We identified a range of evaluation gaps that risk being overlooked if the ML research community’s evaluation practices are uncritically adopted when for applications, and identify six assumptions that would have to be valid if these gaps are to be overlooked. 我々は、ML研究コミュニティの評価プラクティスがアプリケーションに非批判的に採用されている場合、見落とされがちな、さまざまな評価ギャップを特定し、これらのギャップを見落とさなければならない6つの仮定を特定した。
訳抜け防止モード: ML研究コミュニティの評価プラクティスがアプリケーションに非批判的に採用されている場合、見落とされがちな、さまざまな評価ギャップを特定しました。 6つの仮定を これらのギャップを見落としなければ 有効でなければなりません
0.75
The assumptions range from a broad focus on consequentialism to technical concerns regarding distributions of evaluation data. この仮定は、連続論の幅広い焦点から、評価データの分布に関する技術的な懸念まで様々である。 0.62
By presenting these assumptions as a coherent framework, we provide not just a set of mitigations for each evaluation gap, but also demonstrate the relationships between these mitigations. これらの仮定をコヒーレントなフレームワークとして提示することにより、各評価ギャップに対する緩和のセットを提供するだけでなく、これらの緩和の関係を示す。 0.61
We show how in the naive case these assumptions chain together, leading to the grossest assumption that calculating model accuracy on data I.I.D. with the training data can be a reliable signal for real-world applications. 実世界のアプリケーションにとって、これらの仮定が単純な場合においてどのように連鎖し、トレーニングデータによるデータI.I.D.のモデル精度を計算することが信頼性の高い信号となるかを示す。 0.66
We contrast the practices of ML model evaluation with those of the mature engineering practices of software testing to draw out lessons for non-I.I.D. testing under a variety of stress conditions and failure severities. 機械学習モデル評価の実践は、ソフトウェアテストの成熟した工学的実践と対比し、様々なストレス条件や失敗の重大さ下での非I.D.テストの教訓を引き出す。 0.78
One limitation of our analysis is that we are generally domain-agnostic, and we hope to stimulate investigations of assumptions and gaps for specific application domains. 私たちの分析の1つの制限は、一般的にドメインに依存しないことであり、特定のアプリケーションドメインに対する仮定とギャップの調査を刺激することを望んでいる。
訳抜け防止モード: 私たちの分析の限界の一つは 私たちは一般的にドメイン非依存です 特定のアプリケーションドメインに対する仮定とギャップの調査を 促進したいと考えています
0.64
We believe it is fundamental that model developers are explicit about methodological assumptions in their evaluations. モデル開発者が評価において方法論的な仮定を明示することが基本であると考えています。 0.62
We believe that ML model evaluations have great potential to enable interpretation and use by different technical and non-technical communities [158]. mlモデルの評価は、異なる技術コミュニティと非技術コミュニティによる解釈と使用を可能にする大きな可能性を秘めている[158]。 0.70
By naming each assumption we identify and exploring its technical and sociological consequences, we hope to encourage more robust interdisciplinary debate and, ultimately, to nudge model evaluation practice away from abundant opaque unknowns. それぞれの仮定を命名し、その技術的および社会学的結果を探ることで、より強固な学際的議論を促し、最終的には豊富な不透明な未知からモデル評価の実践を逸脱させることを望んでいる。
訳抜け防止モード: それぞれの仮定を命名することで、その技術的および社会学的結果を特定し探索する。 我々はより堅牢な学際的な議論を奨励し 不透明な未知から遠ざかる モデル評価の実践。
0.66
ACKNOWLEDGMENTS We acknowledge useful feedback from Daniel J. Barrett, Alexander D’Amour, Stephen Pfohl, D. Sculley, and the anonymous reviewers. ACKNOWLEDGMENTS Daniel J. Barrett氏、Alexander D’Amour氏、Stephen Pfohl氏、D. Sculley氏、そして匿名のレビュアーからの有用なフィードバックを認めます。 0.70
REFERENCES [1] Firoj Alam, Shafiq Joty, and Muhammad Imran. 参考 [1]firoj alam、shafiq joty、muhammad imran。 0.38
2018. Domain Adaptation with Adversarial Training and Graph Embeddings. 2018. 敵のトレーニングとグラフ埋め込みによるドメイン適応。 0.54
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 訴訟の手続において 第56回計算言語学会年次大会(第1巻:長期論文) 0.53
1077–1087. 1077–1087. 0.35
[2] Cecilia Ovesdotter Alm. セシリア・オベソッター・アルム(Cecilia Ovesdotter Alm)。 0.60
2011. Subjective natural language problems: Motivations, applications, characterizations, and implications. 2011. 主観的自然言語問題:動機づけ、応用、特徴付け、意味づけ。 0.57
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 手続き中 第49回計算言語学会(association for computational linguistics: human language technologies)の報告 0.66
107–112. 15 107–112. 15 0.39
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
[3] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. Dario Amodei氏、Chris Olah氏、Jacob Steinhardt氏、Paul Christiano氏、John Schulman氏、Dan Mané氏。 0.78
2016. Concrete problems in AI safety. 2016. AIの安全性に関する具体的な問題。 0.46
arXiv preprint arXiv プレプリント 0.83
arXiv:1606.06565 (2016). arXiv:1606.06565 (2016)。 0.34
[4] Adam J Andreotta, Nin Kirkham, and Marco Rizzi. [4]Adam J Andreotta、Nin Kirkham、Marco Rizzi。 0.32
2021. AI, big data, and the future of consent. 2021. AI、ビッグデータ、そして同意の未来。 0.53
AI & Society (2021), 1–14. AI&ソサエティ(2021年)、1-14頁。 0.57
[5] McKane Andrus and Thomas K Gilbert. 5] マッカン・アンドラスと トーマス・k・ギルバート 0.58
2019. Towards a just theory of measurement: A principled social measurement assurance program for 2019. 計測の正当性理論に向けて:社会計測の原理的保証プログラム 0.63
machine learning. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. 機械学習。 2019 AAAI/ACM Conference on AI, Ethics, and Society に参加して 0.76
445–451. [6] McKane Andrus, Elena Spitzer, Jeffrey Brown, and Alice Xiang. 445–451. Mcane Andrus氏、Elena Spitzer氏、Jeffrey Brown氏、Alice Xiang氏。 0.46
2021. What We Can’t Measure, We Can’t Understand: Challenges to Demographic Data Procurement in the Pursuit of Fairness. 2021. 私たちが測定できないことは、理解できない:公平を追求する上での人口統計データ調達の課題。 0.52
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. 2021年 ACM Conference on Fairness, Accountability, and Transparency に参加して 0.74
249–260. [7] Lora Aroyo and Chris Welty. 249–260. 7] ローラ・アロイオとクリス・ウェルティ 0.44
2015. Truth is a lie: Crowd truth and the seven myths of human annotation. 2015. 真実は嘘である: 群衆の真実と人間の注釈の7つの神話。 0.58
AI Magazine 36, 1 (2015), 15–24. AIマガジン36, 1 (2015), 15–24。 0.77
[8] Dave Astels. Dave Astels (複数形 Dave Astels) 0.31
2003. Test driven development: A practical guide. 2003. テスト駆動開発: 実践的なガイド。 0.62
Prentice Hall Professional Technical Reference. prentice hall professional technical reference(英語) 0.56
[9] Solon Barocas, Anhong Guo, Ece Kamar, Jacquelyn Krones, Meredith Ringel Morris, Jennifer Wortman Vaughan, Duncan Wadsworth, and Hanna Wallach. 9] Solon Barocas, Anhong Guo, Ece Kamar, Jacquelyn Krones, Meredith Ringel Morris, Jennifer Wortman Vaughan, Duncan Wadsworth, Hanna Wallach。
訳抜け防止モード: [9]ソロン・バローカス、アンジョン・グオ、エース・カマール Jacquelyn Krones, Meredith Ringel Morris, Jennifer Wortman Vaughan, Duncan Wadsworth そしてハンナ・ワラッハ。
0.68
2021. Designing Disaggregated Evaluations of AI Systems: Choices, Considerations, and Tradeoffs. 2021. AIシステムの非集合的評価:選択、考察、トレードオフ。 0.51
arXiv preprint arXiv:2103.06076 (2021). arxiv プレプリント arxiv:2103.06076 (2021)。 0.44
[10] Solon Barocas, Moritz Hardt, and Arvind Narayanan. [10]ソロン・バローカス、モリッツ・ハルト、アーヴィンド・ナラヤナン。 0.40
2017. Fairness in machine learning. 2017. 機械学習における公平性。 0.53
NIPS tutorial 1 (2017), 2017. NIPSチュートリアル1(2017年)、2017年。 0.76
[11] Roland Barthes. ローランド・バルテス(Roland Barthes)。 0.57
1977. Image-Music-Text. 1977. 画像-音楽-テキスト。 0.43
Macmillan. [12] Valerio Basile, Federico Cabitza, Andrea Campagner, and Michael Fell. マクミラン。 Valerio Basile氏、Federico Cabitza氏、Andrea Campagner氏、Michael Fell氏。 0.62
2021. Toward a Perspectivist Turn in Ground Truthing for Predictive 2021. 予測のための根拠真理のパースペクティビスト的転換に向けて 0.54
Computing. コンピューティング。 0.67
arXiv preprint arXiv:2109.04270 (2021). arxiv プレプリント arxiv:2109.04270 (2021) 0.44
[13] Emily M Bender and Batya Friedman. 13] エミリー・m・ベンダーと バティヤ・フリードマン 0.47
2018. Data statements for natural language processing: Toward mitigating system bias and enabling better 2018. 自然言語処理のためのデータステートメント:システムのバイアス軽減と改善に向けて 0.61
science. Transactions of the Association for Computational Linguistics 6 (2018), 587–604. 科学だ the association for computational linguistics 6 (2018), 587–604 (英語) 0.71
[14] Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. Emily M Bender、Timnit Gebru、Angelina McMillan-Major、Shmargaret Shmitchell。 0.62
2021. On the Dangers of Stochastic Parrots: Can Language 2021. 確率オウムの危険性について:カン言語 0.52
Models Be Too Big? モデルは大きすぎるか? 0.83
. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. . 2021年 ACM Conference on Fairness, Accountability, and Transparency に参加して 0.58
610–623. [15] Yoshua Bengio, Yann Lecun, and Geoffrey Hinton. 610–623. 15]ヨシュア・ベンジオ、ヤン・レクン、ジェフリー・ヒントン 0.46
2021. Deep learning for AI. 2021. AIのためのディープラーニング。 0.56
Commun. ACM 64, 7 (2021), 58–65. 共産。 ACM 64, 7 (2021), 58-65。 0.39
[16] John Berger. ジョン・バーガー(John Berger)。 0.59
2008. Ways of seeing. 2008. 見る方法。 0.33
Penguin UK. イギリス領ペンギン。 0.66
[17] Reuben Binns. [17] ルーベン・ビンズ 0.49
2018. Fairness in machine learning: Lessons from political philosophy. 2018. 機械学習の公正性: 政治哲学からの教訓。 0.61
In Conference on Fairness, Accountability and Transparency. 公正、説明責任、透明性に関する会議。 0.69
PMLR, 149–159. PMLR, 149-159。 0.36
[18] Abeba Birhane, Pratyusha Kalluri, Dallas Card, William Agnew, Ravit Dotan, and Michelle Bao. 18] アベバ・ビルハネ、プラチューシャ・カリリ、ダラス・カード、ウィリアム・アグニュー、ラヴィット・ドータン、ミシェル・バオ 0.49
2021. The values encoded in machine learning 2021. 機械学習で符号化された値 0.58
research. arXiv preprint arXiv:2106.15590 (2021). 研究だ arxiv プレプリント arxiv:2106.15590 (2021) 0.56
[19] Damián Blasi, Antonios Anastasopoulos, and Graham Neubig. 19] ダミアン・ブラシ、アントニオ・アナスタソポロス、グラハム・ノイビック 0.47
2021. Systematic Inequalities in Language Technology Performance across the 2021. 言語技術性能の体系的不等式 0.56
World’s Languages. arXiv preprint arXiv:2110.06733 (2021). 世界の言語。 arXiv preprint arXiv:2110.06733 (2021)。 0.69
[20] Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine [20]リシ・ボンマシーニ、ドリュー・ア・ハドソン、エーサン・アデリ、ラス・アルトマン、シムラン・アローラ、シドニー・フォン・アルクス、マイケル・スバーンスタイン、ジャネット・ボーク、アントワーヌ
訳抜け防止モード: [20 ]梨文政尼、ドリュー・ア・ハドソン、エサン・アデリ Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein Jeannette Bohg, Antoine
0.83
Bosselut, Emma Brunskill, et al 2021. ボッセルート、エマ・ブランスキル、アル・2021。 0.47
On the opportunities and risks of foundation models. 基礎モデルの機会とリスクについてです 0.70
arXiv preprint arXiv:2108.07258 (2021). arxiv プレプリント arxiv:2108.07258 (2021) 0.44
[21] Daniel Borkan, Lucas Dixon, Jeffrey Sorensen, Nithum Thain, and Lucy Vasserman. ダニエル・ボルカン(Daniel Borkan)、ルーカス・ディクソン(Lucas Dixon)、ジェフリー・ソレンセン(Jeffrey Sorensen)、ニシャム・タイン(Nithum Thain)、ルーシー・ヴァッサーマン(Lucy Vasserman)。 0.35
2019. Nuanced metrics for measuring unintended bias with 2019. 意図しないバイアス測定のためのニュアンスメトリクス 0.56
real data for text classification. テキスト分類の実際のデータです 0.83
In Companion proceedings of the 2019 world wide web conference. 2019年の世界ワイドウェブ会議のコンパニオン手続き。 0.68
491–500. [22] Samuel Bowman and George Dahl. 491–500. 22]サミュエル・ボウマンとジョージ・ダール 0.42
2021. What Will it Take to Fix Benchmarking in Natural Language Understanding? 2021. 自然言語理解におけるベンチマークの修正には何が必要か? 0.53
. In Proceedings of the 2021 . 2021年を振り返って 0.51
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 北米計算言語学会(Association for Computational Linguistics: Human Language Technologies)の略。 0.66
4843–4855. 4843–4855. 0.35
[23] Eric Breck, Shanqing Cai, Eric Nielsen, Michael Salib, and D Sculley. Eric Breck氏、Shanqing Cai氏、Eric Nielsen氏、Michael Salib氏、D Sculley氏。 0.36
2017. The ML test score: A rubric for ML production readiness and technical 2017. MLテストスコア:ML生産の準備と技術 0.50
debt reduction. In 2017 IEEE International Conference on Big Data (Big Data). 債務削減。 2017年、ieee international conference on big data (big data) を開催。 0.56
IEEE, 1123–1132. IEEE 1123-1132。 0.41
[24] Leo Breiman. レオ・ブレイマン(Leo Breiman)。 0.53
2001. Statistical modeling: The two cultures (with comments and a rejoinder by the author). 2001. 統計的モデリング:2つの文化(著者によるコメントとレジューラを含む)。 0.57
Statistical science 16, 3 (2001), 199–231. 統計学 16, 3 (2001), 199–231。 0.78
[25] Benjamin Brewster. ベンジャミン・ブリュースター(Benjamin Brewster)。 0.63
1881. The Yale Literary Magazine October 1881–June 1882 (1881). 1881. イェール文学雑誌 1881年10月-1882年6月。 0.58
[26] William Bulleit, Jon Schmidt, Irfan Alvi, Erik Nelson, and Tonatiuh Rodriguez-Nikl. [26]William Bulleit, Jon Schmidt, Irfan Alvi, Erik Nelson, Tonatiuh Rodriguez-Nikl。 0.40
2015. Philosophy of engineering: What it is and why it matters. 2015. 工学の哲学:それが何か、なぜ重要なのか。 0.62
Journal of Professional Issues in Engineering Education and Practice 141, 3 (2015), 02514003. journal of professional issues in engineering education and practice 141, 3 (2015), 02514003。 0.35
[27] Razvan Bunescu and Yunfeng Huang. [27]Razvan BunescuとYunfeng Huang。 0.38
2010. A utility-driven approach to question ranking in social QA. 2010. ソーシャルQAにおける質問ランキングに対するユーティリティ駆動型アプローチ 0.58
In Proceedings of The 23rd International 第23回国際会議において 0.75
Conference on Computational Linguistics (COLING 2010). 計算言語学会議(2010年)に参加。 0.60
125–133. [28] Ermao Cai, Da-Cheng Juan, Dimitrios Stamoulis, and Diana Marculescu. 125–133. Ermao Cai, Da-Cheng Juan, Dimitrios Stamoulis, Diana Marculescu 0.31
2017. NeuralPower: Predict and deploy energy-efficient convolutional 2017. NeuralPower:エネルギー効率の良い畳み込み予測と展開 0.59
neural networks. ニューラルネットワーク。 0.65
In Asian Conference on Machine Learning. アジアの機械学習に関する会議です 0.80
PMLR, 622–637. PMLR 622-637。 0.81
[29] Dallas Card and Noah A Smith. 29]ダラスカードとノア・エイ・スミス 0.51
2020. On Consequentialism and Fairness. 2020. 連続主義と公正性。 0.58
Frontiers in Artificial Intelligence 3 (2020), 34. 人工知能のフロンティア(2020年)、34。 0.54
[30] Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, et al 2021. 30]nicholas carlini、florian tramer、eric wallace、matthew jagielski、ariel herbert-voss、katherine lee、adam roberts、tom brown、dawn song、ulfar erlingsson、そしてal 2021。
訳抜け防止モード: ニコラス・カルリーニ、フローリアン・トレーマー、エリック・ウォレス。 マシュー・ジャゲルスキー、アリエル・ハーバート - ヴォス、キャサリン・リー、アダム・ロバーツ。 Tom Brown, Dawn Song, Ulfar Erlingsson, et al 2021
0.70
Extracting training data from large language models. 大規模言語モデルからトレーニングデータを抽出する。 0.76
In 30th USENIX Security Symposium (USENIX Security 21). 第30回USENIXセキュリティシンポジウム(USENIX Security 21)に参加。 0.84
2633–2650. 2633–2650. 0.35
[31] Brandon Carter, Siddhartha Jain, Jonas W Mueller, and David Gifford. 31]ブランドン・カーター、シッダーサ・ジャイン、ジョナス・w・ミューラー、デヴィッド・ギフォード。 0.44
2021. Overinterpretation reveals image classification model pathologies. 2021. 過剰解釈は画像分類モデル病理を明らかにする。 0.50
[32] Robert Challen, Joshua Denny, Martin Pitt, Luke Gompels, Tom Edwards, and Krasimira Tsaneva-Atanasova. Robert Challen氏、Joshua Denny氏、Martin Pitt氏、Luke Gompels氏、Tom Edwards氏、Krasimira Tsaneva-Atanasova氏。 0.39
2019. Artificial intelligence, bias and 2019. 人工知能、バイアス、そして 0.56
Advances in Neural Information Processing Systems 34 (2021). 神経情報処理システム34(2021)の進歩 0.66
clinical safety. BMJ Quality & Safety 28, 3 (2019), 231–237. 臨床的安全性 BMJ Quality & Safety 28, 3 (2019), 231-237。 0.61
[33] James I Charlton. ジェームズ1世カールトン(James I Charlton)。 0.61
1998. Nothing about us without us. 1998. 私達の事は何も無い 0.74
University of California Press. カリフォルニア大学出版局教授。 0.69
[34] Mayee Chen, Karan Goel, Nimit S Sohoni, Fait Poms, Kayvon Fatahalian, and Christopher Ré. 534]Mayee Chen, Karan Goel, Nimit S Sohoni, Fait Poms, Kayvon Fatahalian, Christopher Ré
訳抜け防止モード: 【34】マイ・チェン、カラン・ゴエル、ニミット・ス・ソホニ、 fait poms、kayvon fatahalian、christopher ré。
0.41
2021. Mandoline: Model Evaluation under Distribution 2021. Mandoline: 配布時のモデル評価 0.62
Shift. In International Conference on Machine Learning. シフト。 機械学習に関する国際会議に参加。 0.70
PMLR, 1617–1629. pmlr、1617-1629。 0.52
[35] Patricia Chiril, Véronique Moriceau, Farah Benamara, Alda Mari, Gloria Origgi, and Marlène Coulomb-Gully. Patricia Chiril, Véronique Moriceau, Farah Benamara, Alda Mari, Gloria Origgi, Marlène Coulomb-Gully。 0.33
2020. He said “who’s gonna take care of your children when you are at ACL?”: Reported Sexist Acts are Not Sexist. 2020. セクシストの行為は性差別的ではないと報告されている。
訳抜け防止モード: 2020. と彼は言った。 あなたがaclにいるとき、ゴンナは子供たちの世話をしますか?」 セクシスト行為はセクシストではない。
0.44
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 第58回計算言語学会年次大会を終えて 0.43
4055–4066. 4055–4066. 0.35
16 16 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
[36] Alex Chohlas-Wood, Madison Coots, Emma Brunskill, and Sharad Goel. Alex Chohlas-Wood, Madison Coots, Emma Brunskill, Sharad Goel ] 0.33
2021. Learning to be Fair: A Consequentialist Approach to Equitable 2021. 公平になるための学習: 等式に対する帰結主義的アプローチ 0.51
Decision-Making. arXiv preprint arXiv:2109.08792 (2021). 意思決定。 arxiv プレプリント arxiv:2109.08792 (2021) 0.53
[37] Alexandra Chouldechova. アレクサンドラ・チョルデチョワ(Alexandra Chouldechova)。 0.62
2017. Fair prediction with disparate impact: A study of bias in recidivism prediction instruments. 2017. 異なる影響を伴う公正な予測:再分裂予測器におけるバイアスの研究 0.59
Big data 5, 2 (2017), ビッグデータ5、2(2017年) 0.60
[38] Sam Corbett-Davies and Sharad Goel. [38]サム・コルベット=デイヴィスとシャラード・ゲール。 0.46
2018. The measure and mismeasure of fairness: A critical review of fair machine learning. 2018. 公平性の尺度と誤測定 : 公正な機械学習の批判的レビュー 0.56
arXiv preprint arXiv プレプリント 0.83
153–163. arXiv:1808.00023 (2018). 153–163. arXiv:1808.00023 (2018)。 0.52
[39] Sam Corbett-Davies, Emma Pierson, Avi Feller, Sharad Goel, and Aziz Huq. 39] Sam Corbett-Davies, Emma Pierson, Avi Feller, Sharad Goel, Aziz Huq。 0.38
2017. Algorithmic decision making and the cost of fairness. 2017. アルゴリズムによる意思決定と公平性のコスト。 0.60
In Proceedings of the 23rd acm sigkdd international conference on knowledge discovery and data mining. 院 知識発見とデータマイニングに関する第23回Sigkdd国際会議の成果。 0.55
797–806. [40] Kate Crawford and Vladan Joler. 797–806. 40]ケイト・クロフォードと ヴラダン・ジョラー 0.47
2018. Anatomy of an AI System. 2018. AIシステムの解剖学。 0.57
(Accessed January, 2022). (2022年1月閲覧) 0.44
[41] Kate Crawford and Trevor Paglen. ケイト・クロウフォードとトレバー・パグレン。 0.49
2021. Excavating AI: The politics of images in machine learning training sets. 2021. excavating ai: 機械学習トレーニングセットにおけるイメージの政治。 0.59
AI & SOCIETY (2021), 1–12. AI&SOCIETY (2021), 1-12。 0.78
[42] Sean Cunningham, Jemil Gambo, Aidan Lawless, Declan Moore, Murat Yilmaz, Paul M Clarke, and Rory V O’Connor. Sean Cunningham氏、Jermil Gambo氏、Aidan Lawless氏、Declan Moore氏、Murat Yilmaz氏、Paul M Clarke氏、Rory V O’Connor氏。
訳抜け防止モード: [42 ]ショーン・カニンガム,ジェミル・ガンボ,エイダン・ローレス, Declan Moore、Murat Yilmaz、Paul M Clarke、Rory V O’Connor。
0.63
2019. Software testing: a 2019. ソフトウェアテスト: a 0.62
changing career. In European Conference on Software Process Improvement. キャリアを変える ソフトウェアプロセス改善に関する欧州会議に出席しました 0.64
Springer, 731–742. スプリンガー、731-742。 0.56
[43] Emma Dahlin. 43]エマ・ダリン。 0.52
2021. Mind the gap! 2021. ギャップを忘れるな! 0.51
On the future of AI research. ai研究の将来についてです 0.70
Humanities and Social Sciences Communications 8, 1 (2021), 1–4. 人文科学・社会科学コミュニケーション8,1 (2021), 1-4。 0.78
[44] Alexander D’Amour, Katherine Heller, Dan Moldovan, Ben Adlam, Babak Alipanahi, Alex Beutel, Christina Chen, Jonathan Deaton, Jacob Eisenstein, Matthew D Hoffman, et al 2020. Alexander D’Amour氏、Katherine Heller氏、Dan Moldovan氏、Ben Adlam氏、Babak Alipanahi氏、Alex Beutel氏、Christina Chen氏、Jonathan Deaton氏、Jacob Eisenstein氏、Matthew D Hoffman氏など。
訳抜け防止モード: 44) Alexander D'Amour, Katherine Heller, Dan Moldovan Ben Adlam, Babak Alipanahi, Alex Beutel, Christina Chen Jonathan Deaton氏、Jacob Eisenstein氏、Matthew D Hoffman氏、そして2020年。
0.80
Underspecification presents challenges for credibility in modern machine learning. 以下に示すのは、現代の機械学習における信頼性の課題である。 0.42
arXiv preprint arXiv:2011.03395 (2020). arxiv プレプリント arxiv:2011.03395 (2020) 0.44
[45] Aida Mostafazadeh Davani, Mark Díaz, and Vinodkumar Prabhakaran. 45] aida mostafazadeh davani, mark díaz, vinodkumar prabhakaran。 0.28
2022. Dealing with disagreements: Looking beyond the majority vote in 2022. 不一致に対処する: 多数決を超えて見る 0.59
subjective annotations. Transactions of the Association for Computational Linguistics 10 (2022), 92–110. 主観的な注釈。 association for computational linguistics 10 (2022), 92–110の取引。 0.44
[46] Harm De Vries, Dzmitry Bahdanau, and Christopher Manning. 46]Harm De Vries、Dzmitry Bahdanau、Christopher Manning。 0.56
2020. Towards ecologically valid research on language user interfaces. 2020. 言語ユーザインタフェースに関する生態学的研究に向けて 0.56
arXiv preprint arXiv:2007.14435 (2020). arXiv プレプリントarxiv:2007.14435 (2020)。 0.46
and Evaluation (LREC’16). 評価 (lrec’16)。 0.45
261–266. [47] Leon Derczynski. 261–266. レオナルド・デルジンスキー(Leon derczynski)。 0.45
2016. Complementarity, F-score, and NLP Evaluation. 2016. 相補性、Fスコア、NLP評価。 0.56
In Proceedings of the Tenth International Conference on Language Resources 第10回言語資源国際会議の開催にあたって 0.73
[48] Mark Díaz and Nicholas Diakopoulos. マーク・ディアスとニコラス・ディアコポロス 0.38
2019. Whose walkability? 2019. 誰の歩行性? 0.51
: Challenges in algorithmically measuring subjective experience. アルゴリズムによる主観的経験測定の課題 0.59
Proceedings of the [49] Laurel Eckhouse, Kristian Lum, Cynthia Conti-Cook, and Julie Ciccolini. 議事録 Laurel Eckhouse氏、Kristian Lum氏、Cynthia Conti-Cook氏、Julie Ciccolini氏。 0.53
2019. Layers of bias: A unified approach for understanding problems with 2019. バイアス層: 問題を理解するための統一的なアプローチ 0.64
ACM on Human-Computer Interaction 3, CSCW (2019), 1–22. ACM on Human-Computer Interaction 3, CSCW (2019), 1–22。 0.46
risk assessment. Criminal Justice and Behavior 46, 2 (2019), 185–209. リスク評価。 刑事司法と行動 46, 2 (2019), 185–209。 0.68
[50] Ulle Endriss. 50] ウル・エンドリス 0.44
2018. Lecture notes on fair division. 2018. フェアディビジョンに関する講義ノート。 0.51
arXiv preprint arXiv:1806.04234 (2018). arXiv preprint arXiv:1806.04234 (2018)。 0.76
[51] Kawin Ethayarajh and Dan Jurafsky. 51]Kawin Ethayarajh氏とDan Jurafsky氏。 0.41
2020. Utility is in the Eye of the User: A Critique of NLP Leaderboards. 2020. 実用性はEye of the User: A Critique of NLP Leaderboardsにある。 0.60
In Proceedings of the 2020 Conference 2020年大会の議事録で 0.77
on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における経験的手法(EMNLP)について 0.66
4846–4853. 4846–4853. 0.35
[52] Allyson Ettinger, Sudha Rao, Hal Daumé III, and Emily M Bender. [52]アリソン・エッティンガー、スダー・ラオ、ハル・ダウメ3世、エミリー・m・ベンダー 0.49
2017. Towards linguistically generalizable NLP systems: A workshop and shared 2017. 言語的に一般化可能なNLPシステムを目指して:ワークショップと共有 0.54
task. arXiv preprint arXiv:1711.01505 (2017). タスク。 arxiv プレプリント arxiv:1711.01505 (2017)。 0.49
[53] Utku Evci, Vincent Dumoulin, Hugo Larochelle, and Michael Curtis Mozer. Utku Evci氏、Vincent Dumoulin氏、Hugo Larochelle氏、Michael Curtis Mozer氏。 0.68
2021. Head2Toe: Utilizing Intermediate Representations for Better OOD 2021. Head2Toe: 中間表現を利用したOODの改善 0.53
Generalization. (2021). 一般化。 (2021). 0.54
[54] Abolfazl Farahani, Sahar Voghoei, Khaled Rasheed, and Hamid R Arabnia. [54]Abolfazl Farahani、Sahar Voghoei、Khaled Rasheed、Hamid R Arabnia。 0.31
2020. A brief review of domain adaptation. 2020. ドメイン適応の簡単なレビュー。 0.52
arXiv preprint arXiv:2010.03978 arXiv preprint arXiv:2010.03978 0.29
(2020). [55] Tommaso Fornaciari, Alexandra Uma, Silviu Paun, Barbara Plank, Dirk Hovy, and Massimo Poesio. (2020). Tommaso Fornaciari氏、Alexandra Uma氏、Silviu Paun氏、Barbara Plank氏、Dirk Hovy氏、Massimo Poesio氏。 0.38
2021. Beyond Black & White: Leveraging Annotator Disagreement via Soft-Label Multi-Task Learning. 2021. Beyond Black & White: Soft-Label Multi-Task Learningによるアノテーションの診断。 0.55
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021年、計算言語学会(association for computational linguistics: human language technologies)の北米支部が開催される。 0.68
2591–2597. 2591–2597. 0.71
[56] Diana Forsythe. [56] ダイアナ・フォーサイス 0.51
2001. Studying those who study us: An anthropologist in the world of Artificial Intelligence. 2001. 私たちを研究する人々:人工知能の世界における人類学者。 0.57
Stanford University Press, Chapter 第1章 スタンフォード大学新聞社 0.60
Artificial intelligence invents itself: Collective identity and boundary maintenance in an emergent scientific discipline. 人工知能は自らを発明する: 創発的な科学分野における集団的アイデンティティと境界維持。 0.64
[57] Diana Forsythe. 57]ダイアナ・フォーサイス。 0.47
2001. Studying those who study us: An anthropologist in the world of Artificial Intelligence. 2001. 私たちを研究する人々:人工知能の世界における人類学者。 0.57
Stanford University Press, Chapter The スタンフォード大学出版局第1章 0.68
Construction of Knowledge in Artificial Intelligence. 人工知能における知識の構築。 0.72
[58] Sorelle A Friedler, Carlos Scheidegger, and Suresh Venkatasubramanian. Sorelle A Friedler氏、Carlos Scheidegger氏、Suresh Venkatasubramanian氏。 0.27
2021. The (im) possibility of fairness: Different value systems require 2021. 公平性の可能性:異なる価値システムが必要とする 0.60
different mechanisms for fair decision making. 公平な意思決定のための 異なるメカニズムです 0.66
Commun. ACM 64, 4 (2021), 136–143. 共産。 ACM 64, 4 (2021), 136–143。 0.40
[59] Biying Fu, Cong Chen, Olaf Henniger, and Naser Damer. 59]Biying Fu, Cong Chen, Olaf Henniger, Naser Damer。 0.34
2022. A deep insight into measuring face image utility with general and face-specific 2022. 顔画像の汎用的および顔特有の有用性を測定するための深い洞察 0.56
image quality metrics. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 画像品質指標。 In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision 0.54
905–914. [60] Eva García-Martín, Crefeda Faviola Rodrigues, Graham Riley, and Håkan Grahn. 905–914. Eva García-Martín, Crefeda Faviola Rodrigues, Graham Riley, Håkan Grahn. 0.34
2019. Estimation of energy consumption in machine learning. 2019. 機械学習におけるエネルギー消費量の推定 0.64
J. Parallel and Distrib. Comput. J。 平行で乱雑。 Comput 0.34
134 (2019), 75–88. 134 (2019), 75–88. 0.48
[61] Sahaj Garg, Vincent Perot, Nicole Limtiaco, Ankur Taly, Ed H Chi, and Alex Beutel. Sahaj Garg氏、Vincent Perot氏、Nicole Limtiaco氏、Ankur Taly氏、Ed H Chi氏、Alex Beutel氏。
訳抜け防止モード: [61 ]Sahaj Garg, Vincent Perot, Nicole Limtiaco, Ankur Taly氏、Ed H Chi氏、Alex Beutel氏。
0.39
2019. Counterfactual fairness in text classification through 2019. テキスト分類における対実的公平性 0.51
robustness. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society. 頑丈さ 2019 AAAI/ACM Conference on AI, Ethics, and Society に参加して 0.65
219–226. [62] Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé Iii, and Kate Crawford. 219–226. Timnit Gebru氏、Jamie Morgenstern氏、Briana Vecchione氏、Jennifer Wortman Vaughan氏、Hanna Wallach氏、Hal Daumé Iii氏、Kate Crawford氏。
訳抜け防止モード: 219–226. [62 ]Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé Iii そしてケイト・クロフォード。
0.58
2021. Datasheets for datasets. 2021. データセット用のデータシート。 0.50
Commun. ACM 64, 12 (2021), 86–92. 共産。 ACM 64, 12 (2021), 86-92。 0.61
[63] Clifford Geertz. 63] クリフォード・ゲールツ 0.53
1973. The Interpretation of Cultures. 1973. 文化の解釈。 0.51
Basic Books. [64] Susi Geiger. 基本本。 [64]スージー・ガイガー。 0.43
2020. Silicon Valley, disruption, and the end of uncertainty. 2020. シリコンバレー、ディスラプション、そして不確実性の終焉。 0.55
Journal of cultural economy 13, 2 (2020), 169–184. 文化雑誌『journal of cultural economy 13, 2』(2020年)、169-184頁。 0.55
[65] Boby George and Laurie Williams. ボビー・ジョージとローリー・ウィリアムズ。 0.50
2004. A structured experiment of test-driven development. 2004. テスト駆動開発のための構造化実験。 0.55
Information and software Technology 46, 5 (2004), 情報ソフトウェア技術46, 5(2004) 0.59
337–342. 17 337–342. 17 0.39
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
[66] Hila Gonen and Kellie Webster. 66] ハイラ・ゴーンと ケリー・ウェブスター 0.41
2020. Automatically Identifying Gender Issues in Machine Translation using Perturbations. 2020. 摂動を用いた機械翻訳におけるジェンダー問題の自動識別 0.56
In Findings of the Association for Computational Linguistics: EMNLP 2020. 調査結果によると Association for Computational Linguistics: EMNLP 2020 (英語) 0.75
1991–1995. 1991–1995. 0.35
[67] Mary L Gray and Siddharth Suri. メアリー・l・グレイと シドニー・スーリ 0.44
2019. Ghost work: How to stop Silicon Valley from building a new global underclass. 2019. ゴーストワーク: シリコンバレーが新たなグローバルアンダークラスを構築するのを止める方法。 0.58
Eamon Dolan Books. イーモン・ドーランの書籍。 0.52
[68] Ben Green. 68] ベン・グリーン。 0.71
2020. Data science as political action: grounding data science in a politics of justice. 2020. 政治活動としてのデータ科学: 正義の政治におけるデータ科学の基盤となる。 0.57
Available at SSRN 3658431 (2020). SSRN 3658431 (2020)で発売。 0.65
[69] Huong Ha, Sunil Gupta, Santu Rana, and Svetha Venkatesh. 69] フン・ハ、スンイル・グプタ、サントゥ・ラナ、スヴェタ・ヴェンカテシュ 0.33
2021. ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning 2021. ALT-MAS: 機械学習のアクティブテストのためのデータ効率の良いフレームワーク 0.55
Algorithms. arXiv preprint arXiv:2104.04999 (2021). アルゴリズム。 arxiv プレプリント arxiv:2104.04999 (2021)。 0.55
[70] Frank Hampel and Eth Zurich. 70年 - フランク・ハンペルとエト・チューリッヒ。 0.58
1998. Is statistics too difficult? 1998. 統計は難しいのか? 0.85
Canadian Journal of Statistics 26, 3 (1998), 497–513. カナディアン・ジャーナル・オブ・統計26巻(1998年)、497-513頁。 0.48
[71] Moritz Hardt, Eric Price, and Nati Srebro. [71] Moritz Hardt、Eric Price、Nati Srebro。 0.35
2016. Equality of opportunity in supervised learning. 2016. 教師付き学習における機会の平等。 0.52
Advances in neural information processing systems 神経情報処理システムの進歩 0.74
29 (2016), 3315–3323. 29 (2016), 3315–3323. 0.48
[72] Mary Jean Harrold. メアリー・ジャン・ハロルド(Mary Jean Harrold)。 0.51
2000. Testing: a roadmap. 2000. テスト: ロードマップ。 0.52
In Proceedings of the Conference on the Future of Software Engineering. ソフトウェアエンジニアリングの未来に関するカンファレンスの議事録の中で。 0.81
61–72. [73] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 61–72. [73]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.45
2016. Deep residual learning for image recognition. 2016. 画像認識のための深い残差学習 0.62
In Proceedings of the IEEE conference IEEEカンファレンスの開催にあたって 0.81
on computer vision and pattern recognition. コンピュータビジョンとパターン認識についてです 0.76
770–778. [74] Courtney Heldreth, Michal Lahav, Zion Mengesha, Juliana Sublewski, and Elyse Tuennerman. 770–778. 74] コートニー・ホールドレス、ミハル・ラハフ、 ザイオン・メンゲシャ、 ジュリアナ・スリュースキー、 エリス・トゥエンナーマン 0.46
2021. “I don’t think these devices are very culturally 2021. 「この装置は文化的なものではないと思う」 0.61
sensitive. ”—The impact of errors on African Americans in Automated Speech Recognition. 敏感だ 自動音声認識におけるアフリカ系アメリカ人の誤りの影響。 0.70
Frontiers in Artificial Intelligence 26 (2021). 人工知能のフロンティア26(2021年)。 0.53
[75] Peter Henderson, Jieru Hu, Joshua Romoff, Emma Brunskill, Dan Jurafsky, and Joelle Pineau. [75]ピーター・ヘンダーソン、ジエル・フ、ジョシュア・ロモフ、エマ・ブランスキル、ダン・ジュラフスキー、ジョエル・パイナウ。 0.55
2020. Towards the systematic reporting of the energy 2020. エネルギーの体系的な報告に向けて 0.63
and carbon footprints of machine learning. 機械学習のカーボンフットプリントです 0.59
Journal of Machine Learning Research 21, 248 (2020), 1–43. journal of machine learning research 21, 248 (2020), 1–43。 0.41
[76] Benjamin Hepp, Debadeepta Dey, Sudipta N Sinha, Ashish Kapoor, Neel Joshi, and Otmar Hilliges. 76]Benjamin Hepp,Debadeepta Dey,Sudipta N Sinha,Ashish Kapoor,Neel Joshi,Otmar Hilliges。
訳抜け防止モード: [76 ]Benjamin Hepp,Debadeepta Dey,Sudipta N Sinha, Ashish Kapoor氏、Neel Joshi氏、Otmar Hilliges氏。
0.41
2018. Learn-to-score: Efficient 3D scene 2018. 学習とスコア:効率的な3Dシーン 0.46
exploration by predicting view utility. ビューユーティリティーの予測による探索 0.75
In Proceedings of the European conference on computer vision (ECCV). 欧州コンピュータビジョン会議(ECCV)に参加。 0.57
437–452. [77] Kenneth Holstein, Jennifer Wortman Vaughan, Hal Daumé III, Miro Dudik, and Hanna Wallach. 437–452. ケネス・ホルスタイン、ジェニファー・ウォルトマン・ヴォーン、ハル・ダウメ3世、ミロ・デュディク、ハンナ・ワラッハ。 0.43
2019. Improving fairness in machine learning 2019. 機械学習における公平性向上 0.55
systems: What do industry practitioners need? システム: 業界実践者には何が必要か? 0.70
. In Proceedings of the 2019 CHI conference on human factors in computing systems. . 2019 chi conference on human factors in computing systemsの開催中である。 0.59
1–16. [78] John N Hooker. 1–16. ジョン・N・フッカー(John N Hooker)。 0.46
1995. Testing heuristics: We have it all wrong. 1995. ヒューリスティックスをテストする: すべて間違っています。 0.56
Journal of heuristics 1, 1 (1995), 33–42. Journal of Heuristics 1, 1 (1995), 33–42。 0.43
[79] Dirk Hovy and Shannon L Spruit. ディルク・ホービーとシャノン・l・スプライト 0.33
2016. The social impact of natural language processing. 2016. 自然言語処理の社会的影響。 0.57
In Proceedings of the 54th Annual Meeting of the 第54回年次大会に参加して 0.64
Association for Computational Linguistics (Volume 2: Short Papers). アソシエーション・フォー・計算言語学(第2巻:短い論文)。 0.51
591–598. [80] Po-Sen Huang, Huan Zhang, Ray Jiang, Robert Stanforth, Johannes Welbl, Jack Rae, Vishal Maini, Dani Yogatama, and Pushmeet Kohli. 591–598. [80]Po-Sen Huang、Huan Zhang、Ray Jiang、Robert Stanforth、Johannes Welbl、Jack Rae、Vishal Maini、Dani Yogatama、Pushmeet Kohli。
訳抜け防止モード: 591–598. 80 ] ポー - セン・フン、フアン・チャン、レイ・ジアン。 robert stanforth氏、johannes welbl氏、jack rae氏、vishal maini氏。 ダニヨガタマとpushmeet kohli。
0.51
2020. Reducing Sentiment Bias in Language Models via Counterfactual Evaluation. 2020. 対実評価による言語モデルにおける知覚バイアスの低減 0.56
In Findings of the Association for Computational Linguistics: EMNLP 2020. 計算言語学協会 (association for computational linguistics: emnlp 2020) の略称。 0.67
65–83. [81] Ben Hutchinson and Margaret Mitchell. 65–83. ベン・ハッチンソンとマーガレット・ミッチェル。 0.34
2019. 50 years of test (un) fairness: Lessons for machine learning. 2019. 50年間のテスト(un)フェアネス: マシンラーニングのためのレッスン。 0.61
In Proceedings of the Conference on Fairness, Accountability, and Transparency. 会議の議事録で 公平さ、説明責任、透明性。 0.61
49–58. [82] Ben Hutchinson, Andrew Smart, Alex Hanna, Emily Denton, Christina Greer, Oddur Kjartansson, Parker Barnes, and Margaret Mitchell. 49–58. Ben Hutchinson氏、Andrew Smart氏、Alex Hanna氏、Emily Denton氏、Christina Greer氏、Oddur Kjartansson氏、Parker Barnes氏、Margaret Mitchell氏。 0.72
2021. Towards accountability for machine learning datasets: Practices from software engineering and infrastructure. 2021. 機械学習データセットの説明責任に向けて: ソフトウェアエンジニアリングとインフラストラクチャの実践。 0.60
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. 2021年 ACM Conference on Fairness, Accountability, and Transparency に参加して 0.74
560–575. [83] Maximilian Idahl, Lijun Lyu, Ujwal Gadiraju, and Avishek Anand. 560–575. [83]マクシミリアン・アイダール、リュージュン・リュー、ユイワル・ガディラジュ、アヴィスヘク・アナン。 0.38
2021. Towards Benchmarking the Utility of Explanations for Model Debugging. 2021. モデルデバッグにおける説明の有用性のベンチマークに向けて 0.50
In Proceedings of the First Workshop on Trustworthy Natural Language Processing. The First Workshop on Trustworthy Natural Language Processing に参加して 0.74
68–73. [84] IEEE. 68–73. IEEE[84]。 0.51
2019. The IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems. 2019. 自律的・知的システムの倫理に関するieeeグローバルイニシアチブ。 0.51
“Classical Ethics in A/IS”. A/ISにおける古典的倫理。 0.62
In Ethically Aligned Design: A 倫理的アライメントデザイン: A 0.58
Vision for Prioritizing Human Well-being with Autonomous and Intelligent Systems, First Edition. 自律・インテリジェントシステムによる人間福祉の優先順位付けのためのビジョンファーストエディション 0.75
36–67. [85] Abigail Z Jacobs, Su Lin Blodgett, Solon Barocas, Hal Daumé III, and Hanna Wallach. 36–67. 85] アビゲイル・z・ジェイコブス、ス・リン・ブロジェット、ソロン・バロカス、ハル・ダウメ3世、ハンナ・ワラッハ。
訳抜け防止モード: 36–67. [85 ]Abigail Z Jacobs, Su Lin Blodgett, Solon Barocas, ハル・ダウメ3世とハンナ・ワラッハ。
0.56
2020. The meaning and measurement of bias: lessons from 2020. バイアスの意味と測定: そこから学んだこと 0.56
natural language processing. In Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 自然言語処理。 2020年の公正、説明責任、透明性に関する会議の議事録で 0.72
706–706. [86] Abigail Z Jacobs and Hanna Wallach. 706–706. 86] アビゲイル・z・ジェイコブスと ハンナ・ワラッハ 0.44
2021. Measurement and fairness. 2021. 測定と公平性。 0.57
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and 公正・責任・責任に関する2021年度ACM会議の開催にあたって 0.70
Transparency. 375–385. 透明性。 375–385. 0.51
[87] Yasamin Jafarian and Hyun Soo Park. [87]ヤサミン・ジャファリアンとヒュンソオ公園。 0.50
2021. Learning high fidelity depths of dressed humans by watching social media dance videos. 2021. ソーシャルメディアのダンスビデオを見て、身なりの高い人間の深度を学ぶ。 0.55
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 手続き中 IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加。 0.54
12753–12762. 12753–12762. 0.35
[88] Nathalie Japkowicz. ナサリー・ジャプコウィッツ(Nathalie Japkowicz) 0.39
2006. Why question machine learning evaluation methods. 2006. なぜ機械学習評価法を問うのか。 0.54
In AAAI workshop on evaluation methods for machine learning. aaai workshop on evaluation methods for machine learning で紹介する。 0.74
6–11. [89] Tony Jappy. 6–11. トニー・ジャッピー(Tony Jappy) 0.47
2013. Introduction to Peircean visual semiotics. 2013. Pircean visual semioticsの略。 0.46
A&C Black. A&C Black所属。 0.77
[90] Disi Ji, Padhraic Smyth, and Mark Steyvers. 90]ディジ・ジ、パドレイク・スマイス、マーク・スタイヴァース 0.42
2020. Can i trust my fairness metric? 2020. 公平度基準を信用できますか。 0.46
assessing fairness with unlabeled data and bayesian inference. ラベルのないデータとベイジアン推論で 公平さを評価する 0.59
Advances in Neural Information Processing Systems 33 (2020), 18600–18612. ニューラル・インフォメーション・プロセッシング・システムズ33(2020年)、18600-18612年。 0.46
[91] Karen Sparck Jones and Julia R Galliers. カレン・スパルク・ジョーンズとジュリア・r・ギャリアーズです 0.46
1995. Evaluating natural language processing systems: An analysis and review. 1995. 自然言語処理システムの評価:分析とレビュー。 0.59
Vol. 1083. vol.1。 1083. 0.41
Springer Science & Springer Science 0.28
[92] Sampath Kannan, Aaron Roth, and Juba Ziani. [92]Sampath Kannan、Aaron Roth、Juba Ziani。 0.35
2019. Downstream effects of affirmative action. 2019. 肯定行動の下流効果 0.46
In Proceedings of the Conference on Fairness, 公正会議」の開催にあたって 0.59
Business Media. Accountability, and Transparency. ビジネスメディア。 説明責任、透明性。 0.74
240–248. [93] Bernard Koch, Emily Denton, Alex Hanna, and Jacob G Foster. 240–248. 93]Bernard Koch氏、Emily Denton氏、Alex Hanna氏、Jacob G Foster氏。 0.58
2021. Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning 2021. 削減、再利用、リサイクル: 機械学習におけるデータセットの寿命 0.62
Research. NeurIPS Dataset & Benchmark track (2021). 研究。 neurips dataset & benchmark track (2021) の略。 0.58
[94] Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, and Percy Liang. [94]Pang Wei Koh, Sagawa Shiori, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang。
訳抜け防止モード: 94 ]パン・ワイ・コー、 佐川志織、ヘンリク・マークルンド sang michael xie, marvin zhang, akshay balsubramani, weihua hu,michihiro yasunaga richard lanas phillips, sara beery, jure leskovec, anshul kundaje emma pierson氏、sergey levine氏、chelsea finn氏、percy liang氏。
0.59
2020. WILDS: A Benchmark of in-the-Wild Distribution Shifts. 2020. wilds: イン・ザ・ワイルドのディストリビューションシフトのベンチマーク。 0.46
CoRR abs/2012.07421 (2020). CoRR abs/2012.07421 (2020)。 0.68
https://arxiv.org/ab s/2012.07421 https://arxiv.org/ab s/2012.07421 0.17
18 18 0.43
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
[95] Jannik Kossen, Sebastian Farquhar, Yarin Gal, and Tom Rainforth. 95]Jannik Kossen、Sebastian Farquhar、Yarrin Gal、Tom Rainforth。 0.29
2021. Active testing: Sample-efficient model evaluation. 2021. アクティブテスト: サンプル効率のモデル評価。 0.62
In International Conference on Machine Learning. 国際会議において 機械学習について。 0.66
PMLR, 5753–5763. PMLR,5753-5763。 0.66
[96] Tahu Kukutai and John Taylor. [96]タフ・クタイとジョン・テイラー。 0.68
2016. Indigenous data sovereignty: Toward an agenda. 2016. 先住民データ主権:アジェンダに向けて。 0.50
ANU press. [97] Hiroshi Kuwajima, Hirotoshi Yasuoka, and Toshihiro Nakae. ANUプレス。 【97年】久和島博、安岡弘俊、中江利弘 0.58
2020. Engineering problems in machine learning systems. 2020. 機械学習システムの工学的問題。 0.58
Machine Learning 109, 5 機械学習109, 5 0.78
[98] Alexandre Lacoste, Thomas Boquet, Negar Rostamzadeh, Boris Oreshkin, Wonchang Chung, and David Krueger. 98] アレクサンドル・ラコステ、トーマス・ボケ、ネガー・ロザムザデ、ボリス・オレシキン、ウォンチャン・チュン、デイヴィッド・クルーガー 0.55
2017. Deep prior. 2017. 前より深い。 0.56
arXiv preprint arXiv プレプリント 0.83
(2020), 1103–1126. (2020), 1103–1126. 0.49
arXiv:1712.05016 (2017). arXiv:1712.05016 (2017)。 0.34
[99] Alexandre Lacoste, Boris Oreshkin, Wonchang Chung, Thomas Boquet, Negar Rostamzadeh, and David Krueger. 99] アレクサンドル・ラコステ、ボリス・オレシキン、ウォンチャン・チュン、トーマス・ボケ、ネガー・ロザムザデ、デイヴィッド・クルーガー 0.57
2018. Uncertainty in multitask 2018. マルチタスクの不確実性 0.52
transfer learning. arXiv preprint arXiv:1806.07528 (2018). 転校学習。 arXiv preprint arXiv:1806.07528 (2018)。 0.69
[100] George Lakoff and Mark Johnson. ジョージ・ラコフとマーク・ジョンソン。 0.51
2008. Metaphors we live by. 2008. 私たちが住んでいるメタファー。 0.43
University of Chicago press. [101] Guillaume Lecué and Matthieu Lerasle. シカゴ大学出版局。 101年 ギヨーム・ルクエとマチュー・レラースレ 0.48
2020. Robust machine learning by median-of-means: theory and practice. 2020. 平均中央値によるロバストな機械学習:理論と実践 0.58
The Annals of Statistics 48, 2 統計のアナル48, 2 0.63
(2020), 906–931. (2020), 906–931. 0.49
[102] Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, Larry Goldberg, Alejandro Jaimes, and Jiebo Luo. [102]ユンチェン・リ、イェール・ソン、リアンリアン・カオ、ジョエル・テトルー、ラリー・ゴールドバーグ、アレハンドロ・ジェイムス、ジーボ・ルオ。
訳抜け防止モード: [102 ]ユンチェン・リ、イェール・ソン、リエンリエン・カオ、 Joel Tetreault氏、Larry Goldberg氏、Alejandro Jaimes氏、Jiebo Luo氏。
0.70
2016. TGIF: A new dataset and benchmark 2016. TGIF: 新しいデータセットとベンチマーク 0.62
on animated GIF description. アニメーションGIFで説明します 0.83
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE Conference on Computer Vision and Pattern Recognition に参加して 0.35
4641–4650. 4641–4650. 0.35
[103] Thomas Liao, Rohan Taori, Inioluwa Deborah Raji, and Ludwig Schmidt. 103]トーマス・リアオ、ローハン・タウリ、イニオウルワ・デボラ・ラージ、ルートヴィヒ・シュミット 0.34
2021. Are We Learning Yet? 2021. 私たちはまだ学んでいますか? 0.45
A Meta Review of Evaluation Failures Across 評価失敗のメタレビュー 0.53
Machine Learning. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 機械学習。 第35回ニューラル情報処理システムデータセットとベンチマークトラック(その2) 0.64
[104] Chien-Hsin Lin, Hsin-Yu Shih, and Peter J Sher. [104]チエン・ヒシン・リン、ヒシン・ユ・シー、ピーター・j・シャー。 0.53
2007. Integrating technology readiness into technology acceptance: The TRAM model. 2007. 技術受容への技術適合性の統合:トラムモデル。 0.62
Psychology [105] Chin-Yew Lin. 心理学 〔105〕鎮結林。 0.54
2004. Rouge: A package for automatic evaluation of summaries. 2004. rouge: 要約の自動評価のためのパッケージ。 0.61
In Text summarization branches out. テキスト要約では、分岐する。 0.64
74–81. [106] Lydia T Liu, Sarah Dean, Esther Rolf, Max Simchowitz, and Moritz Hardt. 74–81. 106] Lydia T Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt。 0.35
2018. Delayed impact of fair machine learning. 2018. 公正な機械学習の影響の遅れ。 0.55
In International Conference & Marketing 24, 7 (2007), 641–657. 国際会議において & Marketing 24, 7 (2007), 641–657. 0.59
on Machine Learning. PMLR, 3150–3158. 機械学習について。 PMLR 3150-3158。 0.50
[107] Chi-kiu Lo and Dekai Wu. 【107年】チ・キウ・ロ・デカイ・ウー 0.19
2010. Evaluating Machine Translation Utility via Semantic Role Labels. 2010. 意味的ロールラベルによる機械翻訳ユーティリティの評価。 0.56
. In LREC. . LREC所属。 0.55
Citeseer. [108] Michael Madaio, Lisa Egede, Hariharan Subramonyam, Jennifer Wortman Vaughan, and Hanna Wallach. シーザー。 Michael Madaio氏、Lisa Egede氏、Hariharan Subramonyam氏、Jennifer Wortman Vaughan氏、Hanna Wallach氏。 0.37
2022. Assessing the Fairness of AI Systems: AI Practitioners’ Processes, Challenges, and Needs for Support. 2022. AIシステムの公正性を評価する: AI実践者のプロセス、課題、サポートの必要性。 0.57
Proceedings of the ACM on Human-Computer Interaction 6, CSCW1 (2022), 1–26. ACM on Human-Computer Interaction 6, CSCW1 (2022), 1–26。 0.41
[109] Alessandro Mantelero. アレッサンドロ・マンテロ(Alessandro Mantelero)。 0.47
2018. AI and Big Data: A blueprint for a human rights, social and ethical impact assessment. 2018. AIとビッグデータ: 人権、社会的、倫理的影響評価のための青写真。 0.57
Computer Law & Security コンピュータ法とセキュリティ 0.71
Review 34, 4 (2018), 754–772. 34, 4 (2018), 754–772。 0.35
[110] Marrkula Center. [110] マルキュラセンター 0.64
2019. Approaches to Ethical Decision-making. 2019. 倫理的意思決定へのアプローチ。 0.49
https://www.scu.edu/ ethics/ethics-resour ces/ethical-decision -making/ [111] Donald Martin, Jr., Vinodkumar Prabhakaran, Jill Kuhlberg, Andrew Smart, and William S. Isaac. Donald Martin, Jr., Vinodkumar Prabhakaran, Jill Kuhlberg, Andrew Smart, そしてWilliam S. Isaacだ。 0.55
2020. Extending the Machine Learning Abstraction 2020. 機械学習抽象化の拡張 0.63
Boundary: A Complex Systems Approach to Incorporate Societal Context. 境界: 社会的なコンテキストを取り込むための複雑なシステムアプローチ。 0.68
arXiv:2006.09663 [cs.CY] arXiv:2006.09663[cs.CY] 0.27
[112] Gerardo Matturro. ジェラルド・マトゥロ(Gerardo Matturro)。 0.52
2013. Soft skills in software engineering: A study of its demand by software companies in Uruguay. 2013. ソフトウェアエンジニアリングにおけるソフトスキル: ウルグアイのソフトウェア企業の需要についての研究。 0.60
In 2013 6th international 2013年第6回国際大会 0.53
workshop on cooperative and human aspects of software engineering (CHASE). ソフトウェア工学の協調的・人的側面に関するワークショップ(CHASE)。 0.74
IEEE, 133–136. IEEE 133-136。 0.43
[113] Fulvio Mazzocchi. 113] フルヴィオ・マゾッチ 0.24
2015. Could Big Data be the end of theory in science? 2015. ビッグデータは科学における理論の終わりか? 0.60
A few remarks on the epistemology of data-driven science. データ駆動科学の認識論に関するいくつかのコメント。 0.58
EMBO reports [114] Lorna McGregor, Daragh Murray, and Vivian Ng. EMBO報告 Lorna McGregor氏、Daragh Murray氏、Vivian Ng氏。 0.69
2019. International human rights law as a framework for algorithmic accountability. 2019. アルゴリズム的説明責任の枠組みとしての国際人権法。 0.57
International 16, 10 (2015), 1250–1255. 国際 16, 10 (2015), 1250–1255. 0.62
& Comparative Law Quarterly 68, 2 (2019), 309–343. 68, 2 (2019), 309–343。 0.42
[115] Douglas S McNair. ダグラス・S・マクネア(Douglas S McNair) 0.53
2018. Preventing disparities: Bayesian and frequentist methods for assessing fairness in machine learning decision-support 2018. 格差防止:機械学習意思決定支援における公平性評価のためのベイズ的および頻繁的手法 0.54
models. New Insights into Bayesian Inference (2018), 71. モデル。 ベイズ推論に関する新たな知見(2018年)、71。 0.63
[116] Milagros Miceli, Tianling Yang, Laurens Naudts, Martin Schuessler, Diana Serbanescu, and Alex Hanna. 116] ミラフロス・ミッセリ、 チアンリング・ヤン、 ローレンス・ナウドス、 マーティン・シュースラー、 ダイアナ・セルバネスク、 アレックス・ハンナ 0.56
2021. Documenting Computer Vision Datasets: An Invitation to Reflexive Data Practices. 2021. コンピュータビジョンデータセットの文書化:反射型データプラクティスへの招待。 0.60
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. 2021年 ACM Conference on Fairness, Accountability, and Transparency に参加して 0.74
161–172. [117] Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and 161–172. [117]マーガレット・ミッチェル、シモーネ・ウー、アンドリュー・ザルディヴァル、パーカー・バーンズ、ルーシー・ヴァッサーマン、ベン・ハッチンソン、エレナ・スピッツァー、イニオルワ・デボラ・ラジ、
訳抜け防止モード: 161–172. マーガレット・ミッチェル、シモーヌ・ウー、アンドリュー・ザルディヴァル。 Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer イニオルワ・デボラ・ラージ(Iioluwa Deborah Raji)と
0.50
Timnit Gebru. 2019. ティム・ジェブル 2019. 0.34
Model cards for model reporting. モデルレポート用のモデルカード。 0.84
In Proceedings of the conference on fairness, accountability, and transparency. 公正、説明責任、透明性に関する会議の議事録です 0.58
220–229. [118] Milad Moradi and Matthias Samwald. 220–229. 118年 ミラド・モラディと マティアス・サムワルド 0.38
2021. Evaluating the Robustness of Neural Language Models to Input Perturbations. 2021. 入力摂動に対するニューラルネットワークモデルのロバスト性の評価 0.51
In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 訴訟の手続において 2021 自然言語処理における経験的手法に関する国際会議 0.60
1558–1570. 1558–1570. 0.35
[119] Zak Murez, Soheil Kolouri, David Kriegman, Ravi Ramamoorthi, and Kyungnam Kim. 119]Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ramamoorthi、Kungnam Kim。 0.31
2018. Image to image translation for domain adaptation. 2018. ドメイン適応のための画像から画像への変換 0.54
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 院 IEEE Conference on Computer Vision and Pattern Recognition に参加して 0.41
4500–4509. 4500–4509. 0.35
[120] Glenford J Myers, Corey Sandler, and Tom Badgett. 120]グレンフォード・j・マイヤーズ、コーリー・サンドラー、トム・バッジット 0.64
2011. The art of software testing. 2011. ソフトウェアテストの技術。 0.52
John Wiley & Sons. ジョン・ワイリー&サンズ。 0.62
[121] Michael Neumann, Oliver Roessler, David Suendermann-Oeft, and Vikram Ramanarayanan. 121] Michael Neumann, Oliver Roessler, David Suendermann-Oeft, Vikram Ramanarayanan。 0.38
2020. On the utility of audiovisual dialog technologies and signal analytics for real-time remote monitoring of depression biomarkers. 2020. 抑うつバイオマーカーのリアルタイム遠隔監視における視聴覚対話技術と信号分析の有用性について 0.55
In Proceedings of the First Workshop on Natural Language Processing for Medical Conversations. 第1回医学会話のための自然言語処理ワークショップの開催にあたって 0.81
47–52. [122] Peter Norvig. 47–52. 122年 ピーター・ノーヴィグ 0.38
2017. On Chomsky and the two cultures of statistical learning. 2017. チョムスキーと統計学の2つの文化について 0.58
In Berechenbarkeit der Welt? Springer, 61–83. 心の底から? スプリンガー、61-83。 0.40
[123] Alexandra Olteanu, Carlos Castillo, Fernando Diaz, and Emre Kıcıman. 123] アレクサンドラ・オルテアヌ、カルロス・カスティーリョ、フェルナンド・ディアス、エメラ・クチュマン 0.48
2019. Social data: Biases, methodological pitfalls, and ethical boundaries. 2019. 社会データ:バイアス、方法論的落とし穴、倫理的境界。 0.56
Frontiers in Big Data 2 (2019), 13. Frontiers in Big Data 2 (2019), 13。 0.77
[124] Tribhuvanesh Orekondy, Mario Fritz, and Bernt Schiele. 124] Tribhuvanesh Orekondy, Mario Fritz, Bernt Schiele。 0.32
2018. Connecting pixels to privacy and utility: Automatic redaction of private information 2018. ピクセルをプライバシとユーティリティに接続する: プライベート情報の自動リアクション 0.60
in images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 画像で IEEE Conference on Computer Vision and Pattern Recognition に参加して 0.41
8466–8475. 8466–8475. 0.35
19 19 0.42
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
[125] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. [125]キショレ・パパイニ、サリム・ルーコス、トッド・ウォード、ワイジン・チュー。 0.31
2002. Bleu: a method for automatic evaluation of machine translation. 2002. bleu: 機械翻訳の自動評価方法。 0.52
In Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 手続き中 第40回計算言語学会年会に出席して 0.56
311–318. [126] Pedro O Pinheiro, Negar Rostamzadeh, and Sungjin Ahn. 311–318. 126]ペドロ・オ・ピンハイロ、ネガー・ロスタムザデ、ソンジン・アーン。 0.33
2019. Domain-adaptive single-view 3d reconstruction. 2019. ドメイン適応型single-view 3dリコンストラクション。 0.45
In Proceedings of the IEEE/CVF IEEE/CVFの進歩 0.74
[127] David Martin Ward Powers. 127]デビッド・マーティン・ウォード・パワーズ。 0.61
2011. Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation. 2011. 評価:精度、リコール、fファクタからroc、インフォームドネス、マークネス、相関まで。 0.53
Journal of [128] David Martin Ward Powers. 日誌 デイヴィッド・マーティン・ウォード・パワーズ(David Martin Ward Powers) 0.49
2012. The problem of area under the curve. 2012. 曲線の下の領域の問題。 0.51
In 2012 IEEE International conference on information science and technology. 2012年、IEEE International Conference on Information Science and Technologyに参加。 0.78
International Conference on Computer Vision. コンピュータビジョンに関する国際会議。 0.86
7638–7647. 7638–7647. 0.35
Machine Learning Technologies 2, 1 (2011), 37–63. 機械学習技術 2, 1 (2011), 37-63。 0.80
IEEE, 567–573. IEEE 567-573。 0.44
Computational Linguistics. 345–355. 計算言語学。 345–355. 0.53
[129] David Martin Ward Powers. デイヴィッド・マーティン・ウォード・パワーズ(David Martin Ward Powers) 0.51
2012. The problem with kappa. 2012. カッパの問題。 0.39
In Proceedings of the 13th Conference of the European Chapter of the Association for 欧州協会欧州支部第13回会議の議事録において 0.74
[130] David Martin Ward Powers. 130]デヴィッド・マーティン・ウォード・パワーズ 0.59
2014. What the F-measure doesn’t measure: Features, Flaws, Fallacies and Fixes. 2014. f-measureが測定できないのは、機能、欠陥、誤用、修正だ。 0.60
Technical report, Beijing University of Technology, China & Flinders University, Australia, Tech. 北京大学技術報告 Technology, China & Flinders University, Australia, Tech (英語) 0.72
Rep. (2014). 2014年)に登場。 0.43
[131] Vinodkumar Prabhakaran, Aida Mostafazadeh Davani, and Mark Diaz. 131] Vinodkumar Prabhakaran, Aida Mostafazadeh Davani, Mark Diaz 0.29
2021. On Releasing Annotator-Level Labels and Information in Datasets. 2021. アノテータレベルのラベルと情報をデータセットでリリースすること。 0.48
In Proceedings of The Joint 15th Linguistic Annotation Workshop (LAW) and 3rd Designing Meaning Representations (DMR) Workshop. 院 第15回言語アノテーションワークショップ(LAW)と第3回デザイン意味表現ワークショップ(DMR)の成果 0.56
133–138. [132] Vinodkumar Prabhakaran, Ben Hutchinson, and Margaret Mitchell. 133–138. 132] Vinodkumar Prabhakaran, Ben Hutchinson, Margaret Mitchell。 0.34
2019. Perturbation Sensitivity Analysis to Detect Unintended Model Biases. 2019. 意図しないモデルバイアス検出のための摂動感度解析 0.58
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)に参加して
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して
0.79
5740–5745. 5740–5745. 0.35
[133] Foster Provost and Tom Fawcett. 133]フォスター・プロボストとトム・ファウセット 0.41
1997. Analysis and visualization of classifier performance with nonuniform class and cost distributions. 1997. 非一様クラスとコスト分布を用いた分類器の性能解析と可視化 0.61
In Proceedings of AAAI-97 Workshop on AI Approaches to Fraud Detection & Risk Management. 院 AAAI-97ワークショップ「き裂検出・リスクマネジメントへのAIアプローチ」の開催報告 0.57
57–63. [134] James Pustejovsky. 57–63. 134年 ジェームズ・プステヨフスキー 0.37
1998. The generative lexicon. 1998. 生成的レキシコン。 0.65
MIT press. [135] Inioluwa Deborah Raji, Emily Denton, Emily M Bender, Alex Hanna, and Amandalynne Paullada. MITの記者。 135] Inioluwa Deborah Raji, Emily Denton, Emily M Bender, Alex Hanna, Amandalynne Paullada。 0.56
2021. AI and the Everything in the Whole Wide 2021. AIと世界全体のすべて 0.50
World Benchmark. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 世界ベンチマーク。 第35回ニューラル情報処理システムデータセットとベンチマークトラック(その2) 0.64
[136] Inioluwa Deborah Raji, Andrew Smart, Rebecca N White, Margaret Mitchell, Timnit Gebru, Ben Hutchinson, Jamila Smith-Loud, Daniel Theron, and Parker Barnes. Inioluwa Deborah Raji氏、Andrew Smart氏、Rebecca N White氏、Margaret Mitchell氏、Timnit Gebru氏、Ben Hutchinson氏、Jamila Smith-Loud氏、Daniel Theron氏、Parker Barnes氏。 0.75
2020. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing. 2020. aiアカウンタビリティのギャップを埋める: 内部アルゴリズム監査のためのエンドツーエンドフレームワークを定義する。 0.56
In Proceedings of the 2020 conference on fairness, accountability, and transparency. 2020年の公正、説明責任、透明性に関する会議の議事録で 0.66
33–44. [137] Filippo A Raso, Hannah Hilligoss, Vivek Krishnamurthy, Christopher Bavitz, and Levin Kim. 33–44. 137] Filippo A Raso, Hannah Hilligoss, Vivek Krishnamurthy, Christopher Bavitz, Levin Kim。 0.36
2018. Artificial intelligence & human rights: 2018. 人工知能と人権 0.42
Opportunities & risks. Berkman Klein Center Research Publication 2018-6 (2018). 機会とリスク。 Berkman Klein Center Research Publication 2018-6 (2018)。 0.59
[138] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. [138]ショーキング・レン、カイミング・ヘ、ロス・ギルシック、ジャン・サン。 0.45
2015. Faster r-cnn: Towards real-time object detection with region proposal networks. 2015. Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。 0.56
Advances in neural information processing systems 28 (2015). ニューラル情報処理システム28(2015)の進歩。 0.67
[139] Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, and Sameer Singh. [139]マルコ・トゥリオ・リベイロ、トンジュアン・ウー、カルロス・ゲストリン、サマー・シン。 0.45
2020. Beyond accuracy: Behavioral testing of NLP models with CheckList. 2020. 正確性を超えて: CheckListによるNLPモデルの振る舞いテスト。 0.57
arXiv preprint arXiv:2005.04118 (2020). arXiv preprint arXiv:2005.04118 (2020)。 0.76
[140] Shalaleh Rismani and Ajung Moon. [140] シャラレ・リサニとアジャン・ムーン 0.61
2021. How do AI systems fail socially? 2021. AIシステムはどのように社会的に失敗するのか? 0.50
: an engineering risk analysis approach. 工学的リスク分析のアプローチです 0.68
In 2021 IEEE International 2021年、ieee international 0.77
Symposium on Ethics in Engineering, Science and Technology (ETHICS). The Symposium on Ethics in Engineering, Science and Technology (ETHICS) 0.39
1–8. https://doi.org/10.1 109/ETHICS53270.2021 .9632769 1–8. https://doi.org/10.1 109/ETHICS53270.2021 .9632769 0.24
[141] Pedro Rodriguez, Joe Barrow, Alexander Miserlis Hoyle, John P. Lalor, Robin Jia, and Jordan Boyd-Graber. 141年]ペドロ・ロドリゲス、ジョー・バロー、アレクサンダー・ミセルリス・ホイル、ジョン・p・ララー、ロビン・ジア、ジョーダン・ボイド=グラバー
訳抜け防止モード: 141 ] Pedro Rodriguez, Joe Barrow, Alexander Miserlis Hoyle ジョン・P・ラーラー、ロビン・ジー、ジョーダン・ボイド。
0.73
2021. Evaluation Examples are not Equally Informative: How should that change NLP Leaderboards? 2021. 評価例は平等に非形式的ではない:どのようにNLPリーダーボードを変えるべきか? 0.51
. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). . 第59回計算言語学会年次大会および第11回国際自然言語処理合同会議(第1巻:長期論文)の開催にあたって 0.53
Association for Computational Linguistics, Online, 4486–4503. association for computational linguistics, online, 4486-4503 を参照。 0.66
https://doi.org/10.1 8653/v1/2021.acl-lon g.346 https://doi.org/10.1 8653/v1/2021.acl-lon g.346 0.10
[142] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, and Chris Pal. 142] ネガー・ロザムザデ、セエダリアン・ホスセイニ、トマス・ボケ、ウォジエチ・ストコヴィエツ、ヤン・チャン、クリスチャン・ジュヴァン、クリス・パー 0.43
2018. Fashion-gen: 2018. ファッションゲン 0.48
The generative fashion dataset and challenge. 生成型ファッションデータセットとチャレンジ。 0.77
arXiv preprint arXiv:1806.08317 (2018). arXiv preprint arXiv:1806.08317 (2018) 0.42
[143] Negar Rostamzadeh, Ben Hutchinson, Christina Greer, and Vinodkumar Prabhakaran. 143] ネガー・ロスタムザデ、ベン・ハッチンソン、クリスティーナ・グリア、ヴィノドゥマル・プラバカラン 0.38
2021. Thinking Beyond Distributions in Testing Machine 2021. テストマシンの分散を超えて考える 0.56
Learned Models. In NeurIPS 2021 Workshop on Distribution Shifts: Connecting Methods and Applications. 学習モデル。 neurips 2021 workshop on distribution shifts: connecting methods and applications (英語) 0.54
[144] Nataniel Ruiz, Adam Kortylewski, Weichao Qiu, Cihang Xie, Sarah Adel Bargal, Alan Yuille, and Stan Sclaroff. 144]Nataniel Ruiz, Adam Kortylewski, Weichao Qiu, Cihang Xie, Sarah Adel Bargal, Alan Yuille, Stan Sclaroff。
訳抜け防止モード: [144 ]ナタニエル・ルイス、アダム・コルティレフスキ、ワイチャオ・ケイウ Cihang Xie、Sarah Adel Bargal、Alan Yuille、Stan Sclaroff。
0.69
2022. Simulated Adversarial Testing 2022. Simulated Adversarial Testing 0.42
of Face Recognition Models. 顔認識モデルの例です 0.80
CVPR (2022). CVPR(2022年)。 0.37
[145] Nithya Sambasivan, Erin Arnesen, Ben Hutchinson, Tulsee Doshi, and Vinodkumar Prabhakaran. 145]Nithya Sambasivan, Erin Arnesen, Ben Hutchinson, Tulsee Doshi, Vinodkumar Prabhakaran。 0.34
2021. Re-Imagining Algorithmic Fairness in India and Beyond. 2021. インドと海外のアルゴリズムフェアネスを再認識する。 0.50
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (Virtual Event, Canada) (FAccT ’21). 2021年 ACM Conference on Fairness, Accountability, and Transparency (Virtual Event, Canada) (FAccT'21) に参加。 0.73
Association for Computing Machinery, New York, NY, USA, 315–328. Association for Computing Machinery, New York, NY, USA, 315–328。 0.92
https://doi.org/10.1 145/3442188.3445896 https://doi.org/10.1 145/3442188.3445896 0.15
[146] Nithya Sambasivan and Jess Holbrook. 146]Nithya Sambasivan氏とJess Holbrook氏。 0.40
2018. Toward responsible AI for the next billion users. 2018. 今後10億人のユーザーの責任を負うAIを目指す。 0.51
Interactions 26, 1 (2018), 68–71. 相互作用26, 1 (2018), 68-71。 0.79
[147] Nithya Sambasivan, Shivani Kapania, Hannah Highfill, Diana Akrong, Praveen Paritosh, and Lora M Aroyo. 147]ニティヤ・サンバシバン、シヴァニ・カパニア、ハンナ・ハイフィル、ダイアナ・アクロン、プラヴィエン・パリトシュ、ロラ・m・アロイオ 0.51
2021. “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI. 2021. データ処理ではなく、誰もがモデル処理をしたい”: 高スループットaiにおけるデータカスケード。 0.56
In proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. 2021 CHI Conference on Human Factors in Computing Systems に参加して 0.71
1–15. [148] Mary Sánchez-Gordón, Laxmi Rijal, and Ricardo Colomo-Palacios. 1–15. 148]Mary Sánchez-Gordón, Laxmi Rijal, Ricardo Colomo-Palacios。 0.39
2020. Beyond Technical Skills in Software Testing: Automated versus Manual 2020. ソフトウェアテストの技術的スキルを超えて: 自動化対手動 0.58
Testing. In Proceedings of the IEEE/ACM 42nd International Conference on Software Engineering Workshops. テスト。 In Proceedings of the IEEE/ACM 42nd International Conference on Software Engineering Workshops 0.60
161–164. [149] Erik Tjong Kim Sang and Fien De Meulder. 161–164. 149]Erik Tjong Kim SangとFien de Meulder。 0.34
2003. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition. 2003. CoNLL-2003 共有タスクの紹介:言語に依存しない名前付きエンティティ認識。 0.51
In Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. 第7回自然言語学習会議(HLT-NAACL 2003)に参加して 0.82
142–147. [150] Morgan Klaus Scheuerman, Alex Hanna, and Emily Denton. 142–147. 150] モーガン・クラウス・ショーアマン アレックス・ハンナ エミリー・デントン 0.40
2021. Do datasets have politics? 2021. データセットには政治がありますか? 0.48
Disciplinary values in computer vision dataset コンピュータビジョンデータセットにおける懲戒値 0.68
development. Proceedings of the ACM on Human-Computer Interaction 5, CSCW2 (2021), 1–37. 開発。 acm on human-computer interaction 5, cscw2 (2021), 1-37。 0.71
20 20 0.43
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
[151] David Schlangen. デイヴィッド・シュランゲン(David Schlangen)。 0.57
2021. Targeting the Benchmark: On Methodology in Current Natural Language Processing Research. 2021. ベンチマークのターゲット:現在の自然言語処理研究の方法論について 0.58
In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). 第59回計算言語学会年次大会および第11回国際自然言語処理合同会議(第2巻)の開催にあたって 0.55
670–674. [152] Roy Schwartz, Jesse Dodge, Noah A Smith, and Oren Etzioni. 670–674. 152年]ロイ・シュワルツ、ジェシー・ドッジ、ノア・ア・スミス、オーレン・エツィオニ 0.44
2020. Green AI. 2020. グリーンAI。 0.53
Commun. ACM 63, 12 (2020), 54–63. 共産。 ACM 63, 12 (2020), 54-63。 0.38
[153] David Sculley, Jasper Snoek, Alex Wiltschko, and Ali Rahimi. 153] デビッド・スカリー、ジャスパー・スヌーク、アレックス・ウィルチュコ、アリ・ラヒミ 0.48
2018. Winner’s curse? 2018. 勝者の呪い? 0.48
On pace, progress, and empirical rigor. ペース、進歩、経験的厳密さについて。 0.44
In Proceedings of ICLR iclr (複数形 iclrs) 0.32
2018. [154] Andrew D Selbst, Danah Boyd, Sorelle A Friedler, Suresh Venkatasubramanian, and Janet Vertesi. 2018. 154] Andrew D Selbst, Danah Boyd, Sorelle A Friedler, Suresh Venkatasubramanian, Janet Vertesi。 0.39
2019. Fairness and abstraction in sociotechnical 2019. 社会学における公平性と抽象化 0.44
systems. In Proceedings of the conference on fairness, accountability, and transparency. システム。 公正、説明責任、透明性に関する会議の議事録です 0.65
59–68. [155] Henry Shue. 59–68. 155] ヘンリー・シュー。 0.51
2020. Basic rights: Subsistence, affluence, and US foreign policy. 2020. 基本的権利:駐留権、富、米国の外交政策。 0.60
Princeton University Press. プリンストン大学出版局。 0.70
[156] M Six Silberman, Bill Tomlinson, Rochelle LaPlante, Joel Ross, Lilly Irani, and Andrew Zaldivar. 156]mシックス・シルバーマン、ビル・トムリンソン、ロシェル・ラプランテ、ジョエル・ロス、リリー・イラン、アンドリュー・ザルディヴァル。 0.66
2018. Responsible research with crowds: pay 2018. 群衆による責任ある研究: 報酬 0.58
crowdworkers at least minimum wage. 最低賃金は 群衆労働者だ 0.73
Commun. ACM 61, 3 (2018), 39–41. 共産。 ACM61, 3 (2018), 39-41。 0.56
[157] Walter Sinnott-Armstrong. 157年 ウォルター・シンノット=アームストロング。 0.49
2021. Consequentialism. 2021. 連続主義。 0.54
The Stanford Encyclopedia of Philosophy Winter 2021 Edition (2021). スタンフォード大学哲学百科事典 2021年冬版 (2021年)。 0.79
https://plato.stanfo rd. https://plato.stanfo rd.com。 0.46
edu/archives/win2021 /entries/consequenti alism/ edu/archives/win2021 /entries/consequenti alism/ 0.10
[158] Susan Leigh Star and James R Griesemer. 158]スーザン・リー・スターと ジェームズ・r・グリーゼマー 0.63
1989. Institutional ecology, ‘translations’ and boundary objects: Amateurs and professionals in Berkeley’s 1989. 制度生態学・「翻訳」・境界対象:バークレーのアマチュア・専門家 0.49
Museum of Vertebrate Zoology, 1907-39. 1907-39年、脊椎動物博物館。 0.64
Social studies of science 19, 3 (1989), 387–420. 社会学19巻、3巻(1989年)、387-420頁。 0.54
[159] Emma Strubell, Ananya Ganesh, and Andrew McCallum. 159] Emma Strubell、Ananya Ganesh、Andrew McCallum。 0.31
2019. Energy and Policy Considerations for Deep Learning in NLP. 2019. NLPにおける深層学習のためのエネルギー・政策考察 0.62
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 訴訟の手続において 第57回計算言語学会年次大会報告 0.52
3645–3650. 3645–3650. 0.35
[160] Masashi Sugiyama, Shinichi Nakajima, Hisashi Kashima, Paul Buenau, and Motoaki Kawanabe. [160年)杉山正、中島新一、鹿島久、ポール・ブエナウ、川鍋元秋 0.43
2007. Direct Importance Estimation with Model 2007. モデルによる直接重要度推定 0.59
Selection and Its Application to Covariate Shift Adaptation. 共変量シフト適応への選択とその応用 0.77
Advances in Neural Information Processing Systems 20 (2007). 神経情報処理システム20(2007年)の進歩 0.73
[161] RL Thomas and D Uminsky. 161]RL ThomasとD Uminsky。 0.35
2020. Reliance on metrics is a fundamental challenge for AI. 2020. メトリクスの信頼性は、AIの基本的な課題である。 0.44
In Proceedings of the Ethics of Data Science Conference. データサイエンスの倫理に関する 会議の議事録です 0.66
[162] John W Tukey. 162年 ジョン・w・タキー 0.55
1962. The future of data analysis. 1962. データ分析の未来。 0.54
The annals of mathematical statistics 33, 1 (1962), 1–67. 数学統計学33, 1 (1962), 1–67の年代記。 0.82
[163] Peter D Turney. 163年 ピーター・d・ターニー 0.51
1994. Cost-sensitive classification: Empirical evaluation of a hybrid genetic decision tree induction algorithm. 1994. コストに敏感な分類:ハイブリッド遺伝的決定木誘導アルゴリズムの実証的評価 0.62
Journal of artificial journal of artificial(英語) 0.54
intelligence research 2 (1994), 369–409. インテリジェンス・リサーチ2 (1994), 369–409。 0.76
[164] Dmitry Ustalov, Alexander Panchenko, and Chris Biemann. 164] ドミトリー・ウスタロフ、 アレクサンドル・パンチェンコ、クリス・ビーマン 0.42
2017. Watset: Automatic induction of synsets from a graph of synonyms. 2017. Watset: 同義語のグラフから合成集合を自動的に誘導する。 0.59
In 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017. 55世紀 計算言語学会年次総会, ACL 2017 0.37
Association for Computational Linguistics, 1579–1590. 計算言語学協会 1579-1590年。 0.66
[165] Shannon Vallor. 165] シャノン・ヴァラー。 0.63
2016. Technology and the virtues: A philosophical guide to a future worth wanting. 2016. 技術と美徳: 希望に値する未来への哲学的なガイド。 0.63
Oxford University Press. オックスフォード大学出版局。 0.75
[166] Cornelis Joost Van Rijsbergen. 166] Cornelis Joost Van Rijsbergen. 0.36
1974. Foundation of evaluation. 1974. 評価の基礎。 0.51
Journal of documentation (1974). 論文集(1974年)。 0.55
[167] Andreas Vogelsang and Markus Borg. 167年 アンドレアス・ヴォゲルサングと マルコス・ボルグ 0.43
2019. Requirements engineering for machine learning: Perspectives from data scientists. 2019. 機械学習に必要なエンジニアリング: データサイエンティストからの視点。 0.62
In 2019 IEEE 27th 2019年ieee 27回 0.65
International Requirements Engineering Conference Workshops (REW). 国際要求工学会議ワークショップ(REW)に参加。 0.82
IEEE, 245–251. IEEE 245–251。 0.45
[168] Hanna Wallach. 168年、ハンナ・ワラッハ。 0.55
2018. Computational social science≠ computer science+ social data. 2018. コンピュータサイエンス+社会データ。 0.42
Commun. ACM 61, 3 (2018), 42–44. 共産。 ACM 61, 3 (2018), 42-44。 0.59
[169] Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. 169]Alex Wang、Amanpreet Singh、Julian Michael、Felix Hill、Omer Levy、Samuel Bowman。 0.32
2018. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. 2018. GLUE: 自然言語理解のためのマルチタスクベンチマークと分析プラットフォーム。 0.61
In Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP(英語)
訳抜け防止モード: 2018年EMNLPワークショップ「BlackboxNLP」の開催報告 NLPのためのニューラルネットワークの解析と解釈
0.82
353–355. [170] Jindong Wang, Cuiling Lan, Chang Liu, Yidong Ouyang, Wenjun Zeng, and Tao Qin. 353–355. 【170年】金東王、キュリング・ラン、チャン・リウ、イドン・ウーヤン、ウェンジュン・ゼン、タオ・秦 0.45
2021. Generalizing to Unseen Domains: A Survey on Domain 2021. 未開ドメインへの一般化:ドメインに関する調査 0.62
Generalization. In Proceedings of IJCAI 2021. 一般化。 IJCAI 2021に登場。 0.61
[171] Kellie Webster, Marta R Costa-jussà, Christian Hardmeier, and Will Radford. Kellie Webster氏、Marta R Costa-jussà氏、Christian Hardmeier氏、Will Radford氏。 0.71
2019. Gendered ambiguous pronoun (GAP) shared task at the Gender 2019. Gendered ambiguous pronoun (GAP) shared task at the Gender (英語) 0.44
Bias in NLP Workshop 2019. バイアスはnlp workshop 2019。 0.55
In Proceedings of the First Workshop on Gender Bias in Natural Language Processing. 自然言語処理におけるジェンダーバイアスに関する第1回ワークショップを終えて 0.79
1–7. [172] Sarah Myers West, Meredith Whittaker, and Kate Crawford. 1–7. サラ・マイヤーズ・ウェスト、メレディス・ウィテカー、ケイト・クロウフォード。 0.44
2019. Discriminating systems. 2019. 識別システム。 0.52
AI Now (2019). AI Now (2019)。 0.78
[173] Jim Winkens, Rudy Bunel, Abhijit Guha Roy, Robert Stanforth, Vivek Natarajan, Joseph R Ledsam, Patricia MacWilliams, Pushmeet Kohli, Alan Karthikesalingam, Simon Kohl, et al 2020. Jim Winkens氏、Rudy Bunel氏、Abhijit Guha Roy氏、Robert Stanforth氏、Vivek Natarajan氏、Joseph R Ledsam氏、Patricia MacWilliams氏、Pushmeet Kohli氏、Alan Karthikesalingam氏、Simon Kohl氏。
訳抜け防止モード: 【173年】ジム・ウィンケンズ、ルディ・バネル、アビジット・グハ・ロイ robert stanforth, vivek natarajan, joseph r ledsam, patricia macwilliams pushmeet kohli, alan karthikesalingam, simon kohl, et al 2020など。
0.64
Contrastive Training for Improved Out-of-Distribution Detection. アウトオブディストリビューション検出の改善のためのコントラストトレーニング 0.56
arXiv e-prints (2020), arXiv–2007. arxiv e-prints (2020)、arxiv-2007。 0.45
[174] Hui Wu, Yupeng Gao, Xiaoxiao Guo, Ziad Al-Halah, Steven Rennie, Kristen Grauman, and Rogerio Feris. 174年] ウー、ユペン・ガオ、シャオクアオ・グオ、ジアド・アル=ハラ、スティーヴン・レニー、クリステン・グラウマン、ロジェリオ・フェリス
訳抜け防止モード: 【宝暦11年(174年)・ウー・ユペン・ガオ・キヤオキヤオ・グオ Ziad Al - Halah, Steven Rennie, Kristen Grauman とRogerio Ferisは言う。
0.60
2021. Fashion iq: A new dataset towards retrieving images by natural language feedback. 2021. fashion iq: 自然言語による画像検索のための新しいデータセット。 0.60
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
11307–11317. 11307–11317. 0.35
[175] Samuel Yeom, Irene Giacomelli, Matt Fredrikson, and Somesh Jha. 175年 - サミュエル・ヨーム、アイリーン・ジャコメッリ、マット・フレデリックソン、サマシュ・ジャハ。 0.46
2018. Privacy risk in machine learning: Analyzing the connection to overfitting. 2018. マシンラーニングにおけるプライバシリスク:オーバーフィッティングへの接続を分析する。 0.52
In 2018 IEEE 31st Computer Security Foundations Symposium (CSF). 2018年、IEEE 31st Computer Security Foundations Symposium (CSF)に参加。 0.74
IEEE, 268–282. IEEE 268-282。 0.44
[176] Guoyang Zeng, Fanchao Qi, Qianrui Zhou, Tingji Zhang, Zixian Ma, Bairu Hou, Yuan Zang, Zhiyuan Liu, and Maosong Sun. 【176年】広陽禅、ファンチャオ・チー、チャンルー・周、ティンジ・チャン、ジキアン・マ、バイル・ウー、元宗、ジユアン・リウ、マオソン・サン
訳抜け防止モード: 【宝暦2年(176年)〕広陽禅・文茶王・清・周 Tingji Zhang, Zixian Ma, Bairu Hou, Yuan Zang Zhiyuan LiuとMaosong Sun。
0.77
2021. OpenAttack: An Open-source Textual Adversarial Attack Toolkit. 2021. openattack: オープンソースのtextual adversarial attackツールキット。 0.61
In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations. 第59回計算言語学会年次大会および第11回国際自然言語処理合同会議の開催にあたって 0.53
363–371. [177] Jie M Zhang, Mark Harman, Lei Ma, and Yang Liu. 363–371. 177]jie m zhang、mark harman、lei ma、yang liu。 0.38
2020. Machine learning testing: Survey, landscapes and horizons. 2020. マシンラーニングテスト: 調査、展望、地平線。 0.55
IEEE Transactions on Software ソフトウェアでのieeeトランザクション 0.55
Engineering (2020). 工学(2020年)。 0.42
[178] Wei Emma Zhang, Quan Z Sheng, Ahoud Alhazmi, and Chenliang Li. 【178】海海馬張、クァン・ジン、Ahoud Alhazmi、Chenliang Li。 0.41
2020. Adversarial attacks on deep-learning models in natural language 2020. 自然言語におけるディープラーニングモデルの敵対的攻撃 0.54
processing: A survey. ACM Transactions on Intelligent Systems and Technology (TIST) 11, 3 (2020), 1–41. 処理: 調査。 ACM Transactions on Intelligent Systems and Technology (TIST) 11, 3 (2020), 1–41。 0.53
[179] Benjamin Zi Hao Zhao, Mohamed Ali Kaafar, and Nicolas Kourtellis. 179年]ベンジャミン・ジ・ハオ・ジャオ、モハメド・アリ・カーファー、ニコラス・クールテリス 0.42
2020. Not one but many tradeoffs: Privacy vs. utility in differentially private 2020. プライバシとユーティリティの違いによるプライベートのトレードオフ 0.48
machine learning. In Proceedings of the 2020 ACM SIGSAC Conference on Cloud Computing Security Workshop. 機械学習。 2020 ACM SIGSAC Conference on Cloud Computing Security Workshop に参加して 0.72
15–26. [180] Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez, and Kai-Wei Chang. 15–26. [180]Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez、Kai-Wei Chang。 0.35
2018. Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods. 2018. coreference resolution: evaluation and debiasing method におけるジェンダーバイアス 0.62
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 計算言語学会北米支部2018年会議の成果:ヒューマン・ランゲージ・テクノロジー、Vol. 0.43
2. 21 2. 21 0.43
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
APPENDIX A: METRICS IN ML MODEL EVALUATIONS Here we give definitions and categorizations of some of the metrics reported in the study in Section 3. appendIX A: MetriCS IN ML MODEL Assessment ここでは、第3節で報告されたメトリクスの定義と分類について述べます。 0.73
In practice, there was a long tail since many metrics were used in only a single paper. 実際には、1枚の紙だけに多くのメトリクスが使われたため、長い尾があった。 0.66
Here we include only the metrics which were most frequently observed in our study. ここでは、調査で最も多く観察された指標のみを含む。 0.64
Metric Accuracy Example Task(s) Classification メートル法精度 例 task(s)分類 0.58
Metric category Accuracy メトリックカテゴリの精度 0.87
AUC Bleu Classification AUC ブルー 分類 0.51
AUC Machine translation Precision AUC 機械翻訳 正確さ 0.62
Dice Image segmentation Overlap サイコロ 画像分割 オーバーラップ 0.61
Error rate 𝐹 (or 𝐹1) エラー率 F (複数形 Fs) 0.76
Classification Accuracy Text classification 分類 正確さ テキスト分類 0.63
Overlap 𝐹0.5 オーバーラップ 𝐹0.5 0.42
Text classification Overlap テキスト分類 オーバーラップ 0.71
Hausdorff distance Medical Image Segmentation ハウスドルフ距離 医用画像セグメンテーション 0.68
Distance IoU Matthew’s Correlation Coefficient 距離 イオウ・マシューの相関係数 0.42
Image segmentation Overlap Correlation 画像分割 オーバーラップ相関 0.71
Mean absolute error Regression Distance 絶対誤差 回帰 距離 0.39
22 𝐹 𝑃 2𝑇 𝑃 22 𝐹 𝑃 2𝑇 𝑃 0.43
𝑇 𝑃+𝑇 𝑁 𝐹 𝑃+𝑇 𝑁 ). 𝑇 𝑃+𝑇 𝑁 𝐹 𝑃+𝑇 𝑁 ). 0.42
Definition A metric that penalizes system predictions that do not agree with the reference data 𝑇 𝑃+𝑇 𝑁 +𝐹 𝑃+𝐹 𝑁 ). 定義 基準データ T P+T N +F P+F N と一致しないシステム予測を罰する計量。 0.72
( The area under the curve parameterized by classification threshold 𝑡, typically with 𝑦-axis representing recall and 𝑥-axis representing false positive rate ( A form of “𝑛-gram precision,” originally designed for machine translation but also sometimes used for other text generation tasks, which measures whether sequences of words in the system output are also present in the reference texts [125]. (分類しきい値tによりパラメータ化された曲線の下の領域は、通常、リコールを表すy軸と偽陽性率を表すx軸(元々は機械翻訳用に設計された「n-gram精度」の形式であり、システム出力中の単語列が参照テキスト [125] にも存在するかどうかを測定する他のテキスト生成タスクにも用いられる)で表される。 0.77
Equivalent to 𝐹1 ( 2𝑇 𝑃+𝐹 𝑃+𝐹 𝑁 ). f1 (2t p+f p+f n) と同値である。 0.53
More commonly used for medical image segmentation. より一般的に医療用画像分割に用いられる。 0.66
The inverse of accuracy (1 − 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇 𝑃+𝑇 𝑁 +𝐹 𝑃+𝐹 𝑁 ). 精度の逆 (1 − 精度 = T P+T N + F P+F N )。
訳抜け防止モード: 精度の逆(1 − 精度 = T P+T N) + 𝐹 𝑃+𝐹 𝑁 ) .
0.87
The harmonic mean of recall and precision ( 2𝑃𝑅 𝑃+𝑅 ), originally developed for information retrieval [166] but now widely used in NLP. 2PR P+R はもともと情報検索 [166] のために開発されたが、現在では NLP で広く使われている。 0.66
A weighted harmonic mean of recall and precision, with greater weight given to re- リコールと精度の重み付けされた調和平均で、リコールの重み付けがより大きい 0.55
call ((1 + 𝛽2) 𝑃𝑅 call ((1 + β2) PR 0.47
𝛽2𝑃+𝑅 with 𝛽 = 0.5). β = 0.5 のβ2P+R。 0.66
𝐹 𝑃+𝐹 𝑁 𝑇 𝑃 𝐹 𝑃+𝐹 𝑁 𝑇 𝑃 0.41
A measure of distance between two sets in a metric space. 距離空間における2つの集合間の距離の測度。 0.83
Two sets have a low Hausdorff distance if every point in each set is close to a point in the other set. 2つの集合がハウスドルフ距離が低く、各集合のすべての点が他方の集合の点に近い場合である。 0.72
𝑇 𝑃+𝐹 𝑃+𝐹 𝑁 . 𝑇 𝑃+𝐹 𝑃+𝐹 𝑁 . 0.35
Equivalent to Jaccard. jaccardに相当する。 0.77
Has been argued to address shortcomings in 𝐹1’s asymmetry with respect to classes ( F1 のクラスに対する非対称性の欠点について論じられている。 0.74
√(𝑇 𝑃+𝑇 𝑁)(𝑇 𝑃+𝐹 𝑁)(𝑇 𝑁 +𝐹 𝑁)(𝑇 𝑁 +𝐹 𝑃)). √(𝑇 𝑃+𝑇 𝑁)(𝑇 𝑃+𝐹 𝑁)(𝑇 𝑁 +𝐹 𝑁)(𝑇 𝑁 +𝐹 𝑃)). 0.48
𝑖=1∣ˆ𝑦𝑖 − 𝑦𝑖∣ 𝑖=1∣ˆ𝑦𝑖 − 𝑦𝑖∣ 0.26
𝑇 𝑃 . 𝑇 𝑁 −𝐹 𝑃 . 𝑇 𝑃 . 𝑇 𝑁 −𝐹 𝑃 . 0.46
𝐹 𝑁 ∑𝑁 1 𝑁 𝐹 𝑁 ∑𝑁 1 𝑁 0.41
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Metric Mean Average Precision (MAP) 平均平均精度(MAP) 0.65
Example Task(s) Information retrieval (NLP) 例 task(s)情報検索(nlp) 0.69
Metric category AUC Metric category AUC 0.42
Mean average precision (mAP) 平均平均精度(mAP) 0.79
Object detection (CV) AUC 物体検出(CV)AUC 0.73
Mean reciprocal rank Information retrieval Other 平均相互位階 その他の情報検索 0.58
MSE Image Decomposition Distance MSE 画像分解 距離 0.51
DisNormalized counted Cumulative Gain (NDCG) Pearson’s 𝑟 DisNormalized counted Cumulative Gain (NDCG) Pearson's r 0.42
Recommendation or ranking tasks レコメンデーションまたはランキングタスク 0.65
Other Quality Estimation Correlation その他 品質評価 相関 0.68
Perplexity Language modeling パープレキシティ 言語モデリング 0.58
Perplexity Precision パープレキシティ 正確さ 0.50
Classification Precision PSNR 分類 正確さ PSNR 0.48
Super Resolution Distance 23 超高解像度 距離 23 0.45
Definition In information retrieval, the average over information needs of the average precision of the documents retrieved for that need. 定義 情報検索において、その要求のために検索された文書の平均精度の必要な情報平均。 0.83
The area under the Precision-Recall tradeoff curve, averaged over multiple IoU (intersection over union) threshold values, then averaged across all categories (https: //cocodataset.org/#d etection-eval). 精度-リコールトレードオフ曲線(Precision-Recall tradeoff curve)の下の領域は、複数のIoUしきい値で平均化され、すべてのカテゴリで平均化される(https: //cocodataset.org/#d etection-eval)。 0.61
A measure for evaluating processes that produces an ordered list of possible responses. 可能な応答の順序リストを生成するプロセスを評価するための尺度。 0.80
The average of the inverse rank of the first relevant item retrieved. 検索された第1関連項目の逆ランクの平均値。 0.74
Mean squared error (MSE) measures the average of the squared difference between estimated and actual values. 平均二乗誤差(MSE)は、推定値と実値の間の二乗差の平均を測定する。 0.73
A measure of ranking quality which takes into account the usefulness of items based on their ranking in the result list. 結果リストのランキングに基づいて項目の有用性を考慮に入れたランキング品質の尺度。 0.65
A measure of linear correlation between two sets of data. 2つのデータ間の線形相関の尺度。 0.72
Information-theoreti c metric (measured in bits-per-unit, e g , bits-per-character or bitsper-sentence) often used for language models, inversely related to the probability assigned to the test data by the model. 情報理論計量(英: information-theoreti c metric)は、しばしば言語モデルに使われ、そのモデルによってテストデータに割り当てられた確率と逆関係がある。 0.67
Closely related to the cross-entropy between the model and the test data. モデルとテストデータの間のクロスエントロピーと密接に関連している。 0.73
Can be thought of as how efficiently does the language model encode the test data. 言語モデルはテストデータをいかに効率的にエンコードするかと考えることができる。 0.83
A metric that penalizes the system for predicting a class (if class is unspecified, by default the “positive” class) when the reference data did not belong to this class ( 𝑇 𝑃 𝑇 𝑃+𝐹 𝑃 ). 参照データがこのクラスに属していない場合(t p t p+f p )に、あるクラスを予測するためのシステムをペナライズするメトリック(クラスが不特定の場合、デフォルトでは「正の」クラス)。 0.76
Peak Signal-to-Noise ratio (PSNR) is the ratio between the maximum possible value of a signal and the power of distorting noise (Mean Squared Error) that impacts the quality of its representation. ピーク信号対雑音比(Pak Signal-to-Noise ratio、PSNR)は、信号の最大値と、その表現の質に影響を与える歪み雑音(平均二乗誤差)のパワーとの比である。 0.75
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
Metric Recall RMSE メトリックリコール RMSE 0.55
Rouge Example Task(s) Classification ルージュ 例 task(s)分類 0.51
Metric category Recall メトリックカテゴリリコール 0.77
Depth Estimation Distance Text summarization 深さ推定 距離 テキスト要約 0.60
Recall Spearman’s 𝜌 思い出して Spearmanのρ 0.34
Graph Edit Distance Correlation グラフ編集距離 相関 0.71
Specificity Classification Other 特異性 分類 その他 0.44
SSIM Super Resolution Distance シム 超高解像度 距離 0.45
Top-𝑛 accuracy Face recognition top-n精度 顔認識 0.65
Accuracy Word error rate Speech recognition 正確さ 単語誤り率 音声認識 0.67
Accuracy 𝑇 𝑁 𝑇 𝑃 正確さ 𝑇 𝑁 𝑇 𝑃 0.52
Definition Also known as “sensitivity", this metric that penalizes the system for failing to predict a class (if class is unspecified, by default the “positive” class) when the reference data did belong to this class ( 𝑇 𝑃+𝐹 𝑁 ); a.k.a. true positive rate. 定義は「感度」としても知られており、参照データがこのクラスに属する場合(T P+F N ; 真の正のレート)に、クラスを予測できないシステム(クラスが不特定であれば、デフォルトでは「正の」クラス)を罰する。 0.77
Root Mean Square Error (RMSE) is the square root of the MSE. Root Mean Square Error (RMSE) はMSEの平方根である。 0.77
A form of “𝑛-gram recall,” originally designed for text summarization but also sometimes used for other text generation tasks, which measures whether sequences of words in the reference texts are also present in the system output[105]. n-gram recall(n-gram recall)という形式は、もともとテキスト要約用に設計されたが、参照テキスト中の単語のシーケンスがシステム出力[105]にあるかどうかを測定する他のテキスト生成タスクにも使われる。
訳抜け防止モード: テキスト要約用にもともと設計された「n-gram recall, 」の形式 他のテキスト生成タスクにも使われます 参照テキスト中の単語のシーケンスがシステム出力[105 ]にも存在するかどうかを測定する。
0.88
A measure of monotonic association between two variables–less restrictive than linear correlations. 2つの変数間の単調関係の測度-線形相関よりも制限のない。 0.70
Like Precision, this metric that penalizes the system for failing to predict a class (if class is unspecified, by default the “positive” class) when the reference data did belong to this class; unlike Precision it rewards true negatives rather than true positives 𝑇 𝑁 +𝐹 𝑁 ). Precisionのように、参照データがこのクラスに属していた場合、クラスを予測できないシステム(クラスが不特定であれば、デフォルトでは“正”クラス)を罰するこの計量は、Precisionとは異なり、真の正の T N + F N ではなく真の負の報酬を与える。
訳抜け防止モード: Precisionのように、システムに障害を罰するこの指標 クラスを予測する(クラスが指定されていない場合は、デフォルトでは “ positive ” クラス)。 参照データがこのクラスに属するとき 精度とは異なり、正の正の T N + F N よりも正の負の値を返す。
0.81
( The Structural Similarity Method (SSIM) is a perception-based method for measuring the similarity between two images. (SSIM)は2つの画像間の類似度を測定するための知覚に基づく手法である。 0.81
The formula is based on comparison measurements of luminance, contrast, and structure. この公式は、輝度、コントラスト、構造の比較測定に基づいている。 0.71
A metric for systems that return ranked lists, which calculates accuracy over the top 𝑛 entries in each list. ランク付けされたリストを返すシステムのメトリクスで、各リストの上位n項目の精度を計算する。 0.83
The inverse of word accuracy: 1 − 𝑤𝑜𝑟𝑑 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (which is not technically al- 単語の精度の逆: 1 − 単語の精度(厳密には al ではない) 0.81
ways in[0, 1] due to the way word accuracy 単語の正確さによる[0, 1]の方法 0.68
is defined but which is categorized as “Accuracy” here because both insertions and deletions are penalized). は、挿入と削除の両方がペナルティ化されているため、ここでは "Accuracy" に分類される。 0.65
24 24 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Metric Example Task(s) メートル法 例 タスク(s) 0.66
Metric category Definition Table 5. 計量圏 定義 テーブル5。 0.65
Definitions and categorizations of metrics reported in Section 3. 第3節で報告されたメトリクスの定義と分類 0.74
TP, TN, FP and FN indicate the number of true positives, true negatives, false positives and false negatives, respectively. tp, tn, fp, fnはそれぞれ真陽性数, 真陰性数, 偽陽性数, 偽陰性数である。 0.62
𝑦 and ˆ𝑦 represent actual values and values predicted by the system, respectively. y と y はそれぞれシステムによって予測される実際の値と値を表す。 0.81
25 25 0.43
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
APPENDIX B: TYPES OF EVALUATION DATA USED IN ML MODEL EVALUATIONS appendix b:mlモデル評価に使用される評価データの種類 0.63
Type of Test Data Example Task(s) テストデータの種類 例 タスク(s) 0.78
Test split Classification テストスプリット 分類 0.55
I.I.D. with training data? 訓練データとidは? 0.63
yes Manual resource Lexical acquisition はい 手作業資源 語彙取得 0.68
no References Machine translation いや 参考文献 機械翻訳 0.69
no Training data Keyword extraction いや 研修データ キーワード抽出 0.72
yes Novel distribution Domain transfer はい 新たな流通 藩移転 0.60
no Definition Typically, labeled data is partitioned into training and test splits (and often a dev split too), drawn randomly from the same dataset. いや 定義 通常、ラベル付きデータはトレーニングとテストの分割に分割され、同じデータセットからランダムに描画される。
訳抜け防止モード: いや 定義 通常、ラベル付きデータはトレーニングとテストの分割に分割される。 同じデータセットからランダムに描画される場合も少なくありません。
0.71
A manually compiled resource (in NLP, often a word-based resource such as a lexicon or thesaurus), against which knowledge acquired from a dataset is compared. 手動でコンパイルされたリソース(NLPでは、しばしば辞書やシソーラスのような単語ベースのリソース)で、データセットから取得した知識を比較する。 0.73
Reference outputs (typically obtained prior to building the system) which a generative system is trying to reproduce, typically obtained from humans (e g , manual translations of input sentences in the case of evaluations using Bleu for machine translation tasks). 生成システムが再現しようとしている参照出力(通常はシステム構築前に得られる)は、典型的には人間(機械翻訳タスクにBleuを使用する場合の入力文の手動翻訳など)から得られる。 0.76
Training data that contains labels is used to evaluate an unsupervised algorithm that did not have access to the labels during learning. ラベルを含むトレーニングデータは、学習中にラベルにアクセスできない教師なしのアルゴリズムを評価するために使用される。 0.78
Test data that has the same form as the training data but is drawn from a different distribution (e g , in the case of NLP training on labeled newspaper data and testing on labeled Wikipedia data). トレーニングデータと同じ形態だが、異なる分布から引き出されるテストデータ(例えば、ラベル付き新聞データでnlpトレーニングを行い、ラベル付きウィキペディアデータでテストする場合)。
訳抜け防止モード: トレーニングデータと同じ形式のテストデータ しかし、ラベル付き新聞データを用いたNLPトレーニングでは、異なる分布(例えば、NLPトレーニングの場合)から引き出される。 そして、ラベル付きウィキペディアのデータでテストします。
0.80
Table 6. Types of datasets used in ML model evaluations. 表6。 MLモデル評価で使用されるデータセットの種類。 0.56
26 26 0.42
英語(論文から抽出)日本語訳スコア
Evaluation Gaps in Machine Learning Practice 機械学習実践における評価ギャップ 0.85
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
APPENDIX C: EXAMPLE OF ASSUMPTIONS AND GAPS FOR A HYPOTHETICAL APPLICATION Suppose we are evaluating a hypothetical image classification model for use in an application for assisting blind people in identifying groceries in their pantries. 付録 c: 仮定とギャップの例 仮説的な応用のために、我々は、視覚障害者がパントリーの食料品を特定するのを助けるのに使用される仮定的な画像分類モデルを評価していると仮定する。
訳抜け防止モード: 付録c : 仮定とギャップの例 仮説的応用のための仮説的画像分類モデルの評価を前提として 盲目の人々がパン屋の食料品を特定するのを手伝います。
0.76
Then some application-specific questions related to the assumptions in Section 4 might be: 次に、第4節の前提に関するアプリケーション固有の質問をいくつか挙げる。 0.55
Consequentialism. Was data ethically sourced and labeled? 連続主義。 データソースとラベル付けは倫理的に行われたか? 0.56
Were blind people involved in the design process? 設計プロセスに盲人が関わっていますか? 0.84
Does this use of this model encourage high-risk uses of other similar models, such as identifying pharmaceutical products? このモデルの使用は、医薬品の特定など、他の類似モデルの高リスク使用を促進するだろうか? 0.77
Abstractability from Context. コンテキストから抽象化する。 0.55
Does the application have a human-in-the-loop feature available when the model is uncertain? モデルが不確かである場合、アプリケーションにはヒューマン・イン・ザ・ループ機能がありますか? 0.57
Will the system nudge purchasing behaviors towards products on which the model performs well? システムは、モデルがうまく機能する製品に対する購買行動を促すだろうか? 0.83
Input Myopia. Are uncommon grocery products misclassified more often? 入力ミオピア。 珍しい食料品はもっと分類が間違っていますか。 0.44
Does this disproportionately impact home cooks who don’t stick to the dominant cuisines, or who have food requirements due to medical conditions? これは、支配的な料理に固執しない家庭料理人や、健康状態による食物要求に不釣り合いに影響を与えているのだろうか? 0.69
Quantitative Modeling. Does measuring predictive accuracy fail to take into account dignitary consequences associated with increased independence? 定量的モデリング。 予測精度の測定は、独立性の増加に伴う厳密な結果を考慮していないか? 0.67
Should each user be weighted equally in the evaluation (cf. each image)? 各ユーザーは評価(各画像)において等しく重み付けされるべきか? 0.80
Equivalent Failures. Are there severe risks in confusing certain pairs of products, e g , food products associated with dangerous allergies? 同等の失敗。 危険なアレルギーに関連する食品など、特定の商品を混乱させる重大なリスクはあるのか? 0.70
Are some errors only minimally inconvenient, such as confusing different shapes of pasta? パスタの異なる形状を混乱させるなど、いくつかのエラーは最小限不都合なだけなのか? 0.55
Test Data Validity. テストデータの妥当性。 0.66
Is the evaluation data representative of what the application’s users have in their pantries? 評価データは、アプリケーションのユーザがパントリーに持っているものを表していますか? 0.68
Are the image qualities (lighting, focus, framing, etc.) representative of images taken by blind photographers? 視覚障害者が撮影した画像の画質(照明、焦点、フレーミングなど)は代表的か?
訳抜け防止モード: 画像の品質(照明、フォーカス、フレーミングなど)は? ) 盲目の写真家が撮影した画像の代表?
0.81
27 27 0.42
英語(論文から抽出)日本語訳スコア
FAccT ’22, June 21–24, 2022, Seoul, Republic of Korea FAccT'22, 6月21-24, 2022, ソウル, 大韓民国 0.85
Hutchinson, Rostamzadeh, Greer, Heller, and Prabhakaran Hutchinson, Rostamzadeh, Greer, Heller, Prabhakaran 0.37
APPENDIX D: MODEL EVALUATION REMITS AND DESIGN appendIX D:モデル評価レミットと設計 0.60
Model Evaluation Remit To establish: モデル評価送金 確立するために 0.69
motivation — why evaluate the model? なぜモデルを評価するのか? 0.71
what is the perspective being adopted — task/financial/admin istrative/scientific /... whose interests prompted the evaluation — developer/funder/... who are the consumers of the model evaluation results — manager/user/researc her/... 採用される視点 — タスク/財務/管理/科学/... は、評価を刺激する – 開発者/資金提供者/... モデル評価結果の消費者である – マネージャ/ユーザ/調査者/... は、どのようにして評価されるのか?
訳抜け防止モード: 採用される視点 - 業務 / 財務 / 行政 / 科学 / 利害関係が評価を促した 開発者 / 資金提供者/ モデル評価結果 ー マネージャ/ユーザ/研究者/
0.59
goal — what do we want/need to discover? 目標 – 発見したい/必要のあるものは何か? 0.65
orientation — intrinsic/extrinsic kind — investigation/experi ment type — black box/glass box form (of yardstick) — ideal/attainable/exe mplar/given/judged style — suggestive/indicativ e/exhaustive mode — quantitative/qualita tive/hybrid オリエンテーション — 内在的/外部的タイプ — 調査/実験タイプ — ブラックボックス/ガラスボックスフォーム(ヤードスティック) — 理想/持続可能/実証/ギブ/ジャッジスタイル — 示唆/指示/実験モード — 定量的/適格/ハイブリッド 0.45
Model Evaluation Design To identify: モデル評価設計 特定するために 0.67
ends — what is the model for? 終わり — モデルは何か? 0.65
what is its objective or function? 目的と機能とは何か? 0.75
context — what is the ecosystem the model is in? コンテキスト – モデルが持つエコシステムはどのようなものか? 0.70
what are the animate and inanimate factors? アニメーターと不アニメートとは何でしょう? 0.48
constitution — what is the structure of the model? コンスティチューション – モデルの構造はどのようなものか? 0.75
what was the training data? トレーニングデータは何でしたか? 0.77
To determine: factors that will be tested environment variables ‘system’ parameters 決定する。 環境変数 ‘system’ パラメータがテストされる要因 0.64
evaluation criteria metrics/measures methods Evaluation data — what type, status and nature? 評価基準・測定方法 評価データ — どんなタイプ、ステータス、そして自然か? 0.83
Evaluation procedure Table 7. A sketch of how Karen Sparck Jones and Julia Galliers’ 1995 NLP evaluation framework questionnaire [91] can be adapted for the evaluation of ML models. 評価手順 表7。 Karen Sparck Jones と Julia Galliers の 1995 NLP 評価フレームワーク [91] が ML モデルの評価にどのように適応できるかのスケッチ。 0.63
The output of the remit and the design is a strategy for conducting the model evaluation. 送金と設計の出力は、モデル評価を実行するための戦略である。 0.67
For a related but simpler framework based on model requirements analysis, see also the “7-step Recipe” for NLP system evaluation (https://www.issco.u nige.ch/en/research/ projects/eagles/ewg9 9/7steps.html) developed by the eagles Evaluation Working Group in 1999, which considers whether different parties have a shared understanding of the evaluation’s purpose. モデル要求分析に基づく関連する、より単純なフレームワークについては、1999年にイーグルス評価作業グループによって開発されたNLPシステム評価のための「7段階レシピ」(https://www.issco.u nige.ch/en/research/ projects/ewg99/7step s.html)を参照。 0.71
28 28 0.42
                                                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。