論文の概要: Making Intelligence: Ethics, IQ, and ML Benchmarks
- arxiv url: http://arxiv.org/abs/2209.00692v1
- Date: Thu, 1 Sep 2022 19:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:55:38.629669
- Title: Making Intelligence: Ethics, IQ, and ML Benchmarks
- Title(参考訳): インテリジェンスを作る - 倫理、IQ、MLベンチマーク
- Authors: Borhane Blili-Hamelin and Leif Hancox-Li
- Abstract要約: 我々は、MLベンチマークの技術的および科学的中核にある倫理的リスクの領域により多くの注意を払う必要があると論じている。
人間のIQとMLのベンチマークで見過ごされた構造的類似性を同定する。
我々は,ベンチマーク研究の倫理と倫理のレビューのための実践的な勧告を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ML community recognizes the importance of anticipating and mitigating the
potential negative impacts of benchmark research. In this position paper, we
argue that more attention needs to be paid to areas of ethical risk that lie at
the technical and scientific core of ML benchmarks. We identify overlooked
structural similarities between human IQ and ML benchmarks. Human intelligence
and ML benchmarks share similarities in setting standards for describing,
evaluating and comparing performance on tasks relevant to intelligence. This
enables us to unlock lessons from feminist philosophy of science scholarship
that need to be considered by the ML benchmark community. Finally, we outline
practical recommendations for benchmark research ethics and ethics review.
- Abstract(参考訳): MLコミュニティは、ベンチマーク研究の潜在的なネガティブな影響を予測し緩和することの重要性を認識している。
本稿では,mlベンチマークの技術的・科学的コアにある倫理的リスクの領域に対して,より多くの注意を払う必要があることを論じる。
人間のIQとMLのベンチマークで見過ごされた構造的類似性を同定する。
ヒューマンインテリジェンスとMLベンチマークは、インテリジェンスに関連するタスクのパフォーマンスを記述、評価、比較するための標準の設定において類似点を共有している。
これにより、MLベンチマークコミュニティが考慮すべきフェミニストの科学研究哲学からの教訓を解放することができる。
最後に,ベンチマーク研究の倫理と倫理に関するレビューの実践的勧告について概説する。
関連論文リスト
- Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning
and Reasoning about Change) [33.01659916505635]
人間の知性の中心的な側面において,LLMの能力を評価するための評価枠組みを提案する。
以前に確立された推論ベンチマークよりも多くのテストケースが関与しています。
GPT-3(Davinci)のベースバージョンの初期評価結果では,これらのベンチマークでサブパー性能を示した。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Toward a Perspectivist Turn in Ground Truthing for Predictive Computing [2.2036191027307517]
我々は、従来の金の標準データセットから離れて、機械学習プロセスの知識表現ステップに関わる人的対象の意見と視点を統合する手法を採用するよう、データパースペクティビズム(Data perspectivism)と呼ぶ。
本稿では,MLにおけるパースペクティビズム的スタンスを採用することの主な利点と,そのデメリットと,そのようなスタンスを実際に実施できる様々な方法を提案する。
論文 参考訳(メタデータ) (2021-09-09T13:42:27Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - An Interpretable Graph-based Mapping of Trustworthy Machine Learning
Research [3.222802562733787]
我々は、7000以上のピアレビューされた最近のML論文からなるウェブスクラッドコーパスを用いて、単語の共起ネットワークを構築した。
コミュニティ検出を使用して、TwMLトピックの相対的な位置を推測できるこのネットワーク内の単語のセマンティッククラスタを取得します。
論文 参考訳(メタデータ) (2021-05-13T23:25:07Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。