論文の概要: Specification Overfitting in Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2403.08425v1
- Date: Wed, 13 Mar 2024 11:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:36.490922
- Title: Specification Overfitting in Artificial Intelligence
- Title(参考訳): 人工知能における仕様オーバーフィッティング
- Authors: Benjamin Roth, Pedro Henrique Luz de Araujo, Yuxi Xia, Saskia
Kaltenbrunner and Christoph Korab
- Abstract要約: 機械学習(ML)と人工知能(AI)のアプローチは、その固有のバイアスと、制御の欠如、説明責任、透明性のためにしばしば批判される。
公平性や堅牢性といった高レベルの要件は、具体的な仕様メトリクスに形式化する必要があります。
本稿では,高レベルの要求とタスク性能の低下に対して,特定の指標に過度に注目するシナリオである仕様オーバーフィッティングを定義する。
- 参考スコア(独自算出の注目度): 1.9625166101601141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) and artificial intelligence (AI) approaches are often
criticized for their inherent bias and for their lack of control,
accountability, and transparency. Consequently, regulatory bodies struggle with
containing this technology's potential negative side effects. High-level
requirements such as fairness and robustness need to be formalized into
concrete specification metrics, imperfect proxies that capture isolated aspects
of the underlying requirements. Given possible trade-offs between different
metrics and their vulnerability to over-optimization, integrating specification
metrics in system development processes is not trivial. This paper defines
specification overfitting, a scenario where systems focus excessively on
specified metrics to the detriment of high-level requirements and task
performance. We present an extensive literature survey to categorize how
researchers propose, measure, and optimize specification metrics in several AI
fields (e.g., natural language processing, computer vision, reinforcement
learning). Using a keyword-based search on papers from major AI conferences and
journals between 2018 and mid-2023, we identify and analyze 74 papers that
propose or optimize specification metrics. We find that although most papers
implicitly address specification overfitting (e.g., by reporting more than one
specification metric), they rarely discuss which role specification metrics
should play in system development or explicitly define the scope and
assumptions behind metric formulations.
- Abstract(参考訳): 機械学習(ML)と人工知能(AI)のアプローチは、その固有のバイアスと、制御の欠如、説明責任、透明性のためにしばしば批判される。
その結果、規制機関は、この技術の潜在的な負の副作用を含むことに苦慮している。
フェアネスやロバストネスといった高レベルの要件は、具体的な仕様メトリクス、不完全なプロキシに形式化されて、基盤となる要件の分離された側面をキャプチャする必要があります。
異なるメトリクス間のトレードオフの可能性と過度な最適化の脆弱性を考えると、システム開発プロセスに仕様メトリクスを統合することは簡単ではありません。
本稿では,高レベルの要求とタスク性能の低下に対して,特定の指標に過度に注目するシナリオである仕様オーバーフィッティングを定義する。
我々は、研究者がいくつかのAI分野(自然言語処理、コンピュータビジョン、強化学習など)の仕様メトリクスを提案し、測定し、最適化する方法を分類するために、広範な文献調査を行う。
2018年から2023年半ばにかけて、主要なAIカンファレンスやジャーナルの論文に対するキーワードベースの検索を使用して、仕様メトリクスの提案や最適化を行う74の論文を特定し、分析する。
ほとんどの論文では、仕様の過剰適合(例えば、1つ以上の仕様のメトリクスを報告することで)を暗黙的に解決していますが、システム開発においてどの役割の仕様のメトリクスが機能すべきかを議論したり、メトリクスの定式化の背後にあるスコープと仮定を明確に定義したりすることはめったにありません。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics [2.48769664485308]
機械翻訳(MT)メトリクスは、毎年人間の判断との相関を改善している。
MTにおける精度誤差に直面する際の計量挙動について検討することが重要である。
我々は、単語/文字レベルでの単純な摂動から、談話や実世界の知識に基づくより複雑なエラーまで、68の現象からなる翻訳精度挑戦セットであるACESをキュレートする。
論文 参考訳(メタデータ) (2022-10-27T16:59:02Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z) - Bias and unfairness in machine learning models: a systematic literature
review [43.55994393060723]
本研究の目的は,機械学習モデルにおけるバイアスと不公平性に関する既存の知識を検討することである。
The Systematic Literature Reviewによると、2017年から2022年にかけて、Scoops、IEEE Xplore、Web of Science、Google Scholarの知識ベースで40の論文が出版された。
論文 参考訳(メタデータ) (2022-02-16T16:27:00Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。