論文の概要: Questionable practices in machine learning
- arxiv url: http://arxiv.org/abs/2407.12220v1
- Date: Wed, 17 Jul 2024 00:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:58:45.399066
- Title: Questionable practices in machine learning
- Title(参考訳): 機械学習における疑わしい実践
- Authors: Gavin Leech, Juan J. Vazquez, Misha Yagudin, Niclas Kupper, Laurence Aitchison,
- Abstract要約: 研究者が何らかの指標で最先端の結果を報告するための強いインセンティブは、しばしば疑わしい研究慣行(QRP)につながる。
報告結果を損なう可能性のある43のプラクティスについて説明する。
また、他の研究者が以前の研究を再現し、構築し、監査することを困難または不可能にする「再現不可能な研究慣行」についても論じる。
- 参考スコア(独自算出の注目度): 20.54622439094417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating modern ML models is hard. The strong incentive for researchers and companies to report a state-of-the-art result on some metric often leads to questionable research practices (QRPs): bad practices which fall short of outright research fraud. We describe 43 such practices which can undermine reported results, giving examples where possible. Our list emphasises the evaluation of large language models (LLMs) on public benchmarks. We also discuss "irreproducible research practices", i.e. decisions that make it difficult or impossible for other researchers to reproduce, build on or audit previous research.
- Abstract(参考訳): 最新のMLモデルを評価するのは難しい。
研究者や企業が何らかの指標で最先端の結果を報告する強いインセンティブは、しばしば疑わしい研究慣行(QRP)につながる。
報告結果を損なう可能性のある43のプラクティスについて説明する。
我々のリストは、公開ベンチマークにおける大規模言語モデル(LLM)の評価に重点を置いている。
また、他の研究者が以前の研究を再現し、構築し、監査することを困難または不可能にする「再現不可能な研究慣行」についても論じる。
関連論文リスト
- Auditing the Use of Language Models to Guide Hiring Decisions [2.949890760187898]
アルゴリズムバイアスから保護するための規制努力は、大規模言語モデルで急速に進歩した緊急性を高めている。
現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。
本稿では,監査アルゴリズムの1つのアプローチとして,対応実験を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:01:26Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - GPT4 is Slightly Helpful for Peer-Review Assistance: A Pilot Study [0.0]
GPT4はピアレビュープロセスを支援するために開発された。
大規模な機械学習会議に提出された学術論文の人間レビュアーとGPTモデルによるレビューを比較することにより、人工知能がピアレビュープロセスに効果的に貢献できるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2023-06-16T23:11:06Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Review on the Feasibility of Adversarial Evasion Attacks and Defenses
for Network Intrusion Detection Systems [0.7829352305480285]
最近の研究は、サイバーセキュリティ分野における多くの懸念を提起している。
機械学習アルゴリズムに基づくセキュリティシステムに対する攻撃の可能性について研究する研究者が増えている。
論文 参考訳(メタデータ) (2023-03-13T11:00:05Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z) - Individual Explanations in Machine Learning Models: A Survey for
Practitioners [69.02688684221265]
社会的関連性の高い領域の決定に影響を与える洗練された統計モデルの使用が増加しています。
多くの政府、機関、企業は、アウトプットが人間の解釈可能な方法で説明しにくいため、採用に消極的です。
近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。
論文 参考訳(メタデータ) (2021-04-09T01:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。