論文の概要: Evaluation Gaps in Machine Learning Practice
- arxiv url: http://arxiv.org/abs/2205.05256v1
- Date: Wed, 11 May 2022 04:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 07:24:33.820028
- Title: Evaluation Gaps in Machine Learning Practice
- Title(参考訳): 機械学習実践における評価ギャップ
- Authors: Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller,
Vinodkumar Prabhakaran
- Abstract要約: 実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
- 参考スコア(独自算出の注目度): 13.963766987258161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forming a reliable judgement of a machine learning (ML) model's
appropriateness for an application ecosystem is critical for its responsible
use, and requires considering a broad range of factors including harms,
benefits, and responsibilities. In practice, however, evaluations of ML models
frequently focus on only a narrow range of decontextualized predictive
behaviours. We examine the evaluation gaps between the idealized breadth of
evaluation concerns and the observed narrow focus of actual evaluations.
Through an empirical study of papers from recent high-profile conferences in
the Computer Vision and Natural Language Processing communities, we demonstrate
a general focus on a handful of evaluation methods. By considering the metrics
and test data distributions used in these methods, we draw attention to which
properties of models are centered in the field, revealing the properties that
are frequently neglected or sidelined during evaluation. By studying these
properties, we demonstrate the machine learning discipline's implicit
assumption of a range of commitments which have normative impacts; these
include commitments to consequentialism, abstractability from context, the
quantifiability of impacts, the limited role of model inputs in evaluation, and
the equivalence of different failure modes. Shedding light on these assumptions
enables us to question their appropriateness for ML system contexts, pointing
the way towards more contextualized evaluation methodologies for robustly
examining the trustworthiness of ML models
- Abstract(参考訳): 機械学習(ML)モデルのアプリケーションエコシステムに対する適切性に対する信頼性の高い判断を形成することは、その責任を負う上で重要であり、害、利益、責任を含む幅広い要因を検討する必要がある。
しかし実際には、MLモデルの評価は、限られた範囲の非文脈化予測行動のみに焦点を当てることが多い。
評価対象の理想化範囲と実際の評価対象の狭間における評価ギャップについて検討した。
コンピュータビジョンと自然言語処理のコミュニティにおける最近の著名なカンファレンスの論文の実証研究を通じて、我々はいくつかの評価手法に焦点をあてた。
これらの手法で使用されるメトリクスとテストデータ分布を考慮し、フィールドにどの特性が集中しているかを注意し、評価中に頻繁に無視されるか、あるいは傍観される性質を明らかにする。
これらの特性を研究することで、機械学習分野が規範的な影響を持つコミットメントの範囲を暗黙的に仮定することを示し、これには連続性へのコミットメント、文脈からの抽象可能性、影響の定量性、評価におけるモデル入力の限られた役割、異なる障害モードの等価性が含まれる。
これらの仮定に光を当てることで、MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を指して、MLシステムコンテキストに対する彼らの適切性に疑問を呈することができる。
関連論文リスト
- Fairness Evaluation with Item Response Theory [10.871079276188649]
本稿では機械学習(ML)モデルにおける公平性を評価するための新しいFair-IRTフレームワークを提案する。
項目特性曲線(ICC)の詳細な説明は、特定の個人に対して提供される。
公平性評価ツールとしてのこのフレームワークの有効性を実証する実験を行った。
論文 参考訳(メタデータ) (2024-10-20T22:25:20Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。