論文の概要: Making Intelligence: Ethics, IQ, and ML Benchmarks
- arxiv url: http://arxiv.org/abs/2209.00692v1
- Date: Thu, 1 Sep 2022 19:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:55:38.629669
- Title: Making Intelligence: Ethics, IQ, and ML Benchmarks
- Title(参考訳): インテリジェンスを作る - 倫理、IQ、MLベンチマーク
- Authors: Borhane Blili-Hamelin and Leif Hancox-Li
- Abstract要約: 我々は、MLベンチマークの技術的および科学的中核にある倫理的リスクの領域により多くの注意を払う必要があると論じている。
人間のIQとMLのベンチマークで見過ごされた構造的類似性を同定する。
我々は,ベンチマーク研究の倫理と倫理のレビューのための実践的な勧告を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ML community recognizes the importance of anticipating and mitigating the
potential negative impacts of benchmark research. In this position paper, we
argue that more attention needs to be paid to areas of ethical risk that lie at
the technical and scientific core of ML benchmarks. We identify overlooked
structural similarities between human IQ and ML benchmarks. Human intelligence
and ML benchmarks share similarities in setting standards for describing,
evaluating and comparing performance on tasks relevant to intelligence. This
enables us to unlock lessons from feminist philosophy of science scholarship
that need to be considered by the ML benchmark community. Finally, we outline
practical recommendations for benchmark research ethics and ethics review.
- Abstract(参考訳): MLコミュニティは、ベンチマーク研究の潜在的なネガティブな影響を予測し緩和することの重要性を認識している。
本稿では,mlベンチマークの技術的・科学的コアにある倫理的リスクの領域に対して,より多くの注意を払う必要があることを論じる。
人間のIQとMLのベンチマークで見過ごされた構造的類似性を同定する。
ヒューマンインテリジェンスとMLベンチマークは、インテリジェンスに関連するタスクのパフォーマンスを記述、評価、比較するための標準の設定において類似点を共有している。
これにより、MLベンチマークコミュニティが考慮すべきフェミニストの科学研究哲学からの教訓を解放することができる。
最後に,ベンチマーク研究の倫理と倫理に関するレビューの実践的勧告について概説する。
関連論文リスト
- CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - On the Morality of Artificial Intelligence [154.69452301122175]
本稿では,機械学習の研究・展開に関する概念的かつ実践的な原則とガイドラインを提案する。
我々は,より倫理的で道徳的なMLの実践を追求するために,実践者が採る具体的な行動を主張している。
論文 参考訳(メタデータ) (2019-12-26T23:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。