論文の概要: The Benchmark Lottery
- arxiv url: http://arxiv.org/abs/2107.07002v1
- Date: Wed, 14 Jul 2021 21:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:58:20.248898
- Title: The Benchmark Lottery
- Title(参考訳): The Benchmark Lottery
- Authors: Mostafa Dehghani, Yi Tay, Alexey A. Gritsenko, Zhe Zhao, Neil Houlsby,
Fernando Diaz, Donald Metzler, Oriol Vinyals
- Abstract要約: ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
- 参考スコア(独自算出の注目度): 114.43978017484893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The world of empirical machine learning (ML) strongly relies on benchmarks in
order to determine the relative effectiveness of different algorithms and
methods. This paper proposes the notion of "a benchmark lottery" that describes
the overall fragility of the ML benchmarking process. The benchmark lottery
postulates that many factors, other than fundamental algorithmic superiority,
may lead to a method being perceived as superior. On multiple benchmark setups
that are prevalent in the ML community, we show that the relative performance
of algorithms may be altered significantly simply by choosing different
benchmark tasks, highlighting the fragility of the current paradigms and
potential fallacious interpretation derived from benchmarking ML methods. Given
that every benchmark makes a statement about what it perceives to be important,
we argue that this might lead to biased progress in the community. We discuss
the implications of the observed phenomena and provide recommendations on
mitigating them using multiple machine learning domains and communities as use
cases, including natural language processing, computer vision, information
retrieval, recommender systems, and reinforcement learning.
- Abstract(参考訳): 経験的機械学習(ML)の世界は、異なるアルゴリズムとメソッドの相対的有効性を決定するために、ベンチマークに強く依存している。
本稿では,MLベンチマークプロセスの全体的脆弱性を記述する「ベンチマーク抽選」の概念を提案する。
ベンチマーク宝くじは、基本的なアルゴリズム上の優位性以外の多くの要因が、メソッドが優れていると認識される可能性があることを仮定している。
MLコミュニティで広く普及している複数のベンチマーク設定では、アルゴリズムの相対的な性能は、異なるベンチマークタスクを選択することで著しく変化し、現在のパラダイムの脆弱さと、ベンチマークMLメソッドから派生した潜在的な誤解釈を強調している。
すべてのベンチマークで重要視されていることに関する声明が述べられていることを踏まえると、これはコミュニティにおけるバイアスのある進歩につながるかもしれない、と私たちは主張します。
本稿では,自然言語処理,コンピュータビジョン,情報検索,レコメンダシステム,強化学習など,複数の機械学習領域とコミュニティをユースケースとして活用するためのレコメンデーションを提案する。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - The MAGICAL Benchmark for Robust Imitation [16.699877076711548]
シミュレーション学習(IL)アルゴリズムは通常、デモを作成するのに使われたのと同じ環境で評価される。
本稿では,一般化の体系的評価を可能にするMAGICALベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2020-11-01T02:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。