Fugu-MT 論文翻訳(概要): Making Intelligence: Ethical Values in IQ and ML Benchmarks

論文の概要: Making Intelligence: Ethical Values in IQ and ML Benchmarks

arxiv url: http://arxiv.org/abs/2209.00692v3
Date: Mon, 6 Feb 2023 20:31:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 10:55:46.994171
Title: Making Intelligence: Ethical Values in IQ and ML Benchmarks
Title（参考訳）: 知性を生み出す - IQとMLベンチマークにおける倫理的価値
Authors: Borhane Blili-Hamelin and Leif Hancox-Li
Abstract要約: MLベンチマークを作成する際には、値を考慮する必要がある、と私たちは主張する。バリューニュートラルベンチマークを作成することで、この選択を避けることは不可能であり、望ましくもない。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, ML researchers have wrestled with defining and improving machine learning (ML) benchmarks and datasets. In parallel, some have trained a critical lens on the ethics of dataset creation and ML research. In this position paper, we highlight the entanglement of ethics with seemingly ``technical'' or ``scientific'' decisions about the design of ML benchmarks. Our starting point is the existence of multiple overlooked structural similarities between human intelligence benchmarks and ML benchmarks. Both types of benchmarks set standards for describing, evaluating, and comparing performance on tasks relevant to intelligence -- standards that many scholars of human intelligence have long recognized as value-laden. We use perspectives from feminist philosophy of science on IQ benchmarks and thick concepts in social science to argue that values need to be considered and documented when creating ML benchmarks. It is neither possible nor desirable to avoid this choice by creating value-neutral benchmarks. Finally, we outline practical recommendations for ML benchmark research ethics and ethics review.
Abstract（参考訳）: 近年、ML研究者は機械学習(ML)ベンチマークとデータセットの定義と改善に力を入れている。並行して、データセットの作成とml研究の倫理に関する批判的なレンズを訓練する者もいる。本稿では,MLベンチマークの設計に関する「技術的」あるいは「科学的」な判断による倫理の絡み合いを強調する。私たちの出発点は、人間のインテリジェンスベンチマークとMLベンチマークの間に、見過ごされた構造的類似点が複数存在することです。どちらのベンチマークも、インテリジェンスに関連するタスクに関するパフォーマンスを記述、評価、比較するための標準を設定している。私たちは、iqベンチマークと社会科学の厚い概念についてフェミニスト哲学の視点を用いて、mlベンチマークを作成する際に価値を考慮し、文書化する必要があると主張する。価値中立なベンチマークを作成することで、この選択を避けることは不可能であり、望ましくない。最後に,MLベンチマーク研究倫理と倫理審査の実践的勧告について概説する。

関連論文リスト

The illusion of a perfect metric: Why evaluating AI's words is harder than it looks [0.0]
自然言語生成(NLG)は、AIの実用化に不可欠である。人間の評価はデファクトスタンダードと考えられているが、高価でスケーラビリティに欠ける。決定的な解として単一の計量が現れることはなく、結果として、完全に含意を考慮せずに異なる計量を用いた研究が行われる。
論文参考訳（メタデータ） (2025-08-19T13:22:41Z)
MEQA: A Meta-Evaluation Framework for Question & Answer LLM Benchmarks [0.0]
質問と回答(QA)ベンチマークのメタ評価のためのフレームワークであるMEQAを提案する。我々は,人間とLLM評価器を用いたサイバーセキュリティベンチマークにおいて,この手法を実証する。私たちは、強力な防御ツールとセキュリティ脅威として、AIモデルの二重性によるテストドメインの選択を動機付けています。
論文参考訳（メタデータ） (2025-04-18T19:01:53Z)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。 LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文参考訳（メタデータ） (2024-06-06T18:15:01Z)
PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics [3.9362370389588834]
本稿では,LLMの心理学的アシステッドベンチマーキングのための新しい枠組みを提案する。我々は, GPT-4 と Gemini-Pro-Vision の習熟度を, 56 人の集団に対して 8 年生数学で測定した。心理測定に基づくアプローチを採用すると、既存の実践に基づいて異なる評価結果が得られることを示す。
論文参考訳（メタデータ） (2024-04-02T09:58:57Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)
On the Morality of Artificial Intelligence [154.69452301122175]
本稿では,機械学習の研究・展開に関する概念的かつ実践的な原則とガイドラインを提案する。我々は,より倫理的で道徳的なMLの実践を追求するために,実践者が採る具体的な行動を主張している。
論文参考訳（メタデータ） (2019-12-26T23:06:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。