論文の概要: Position: Benchmarking is Limited in Reinforcement Learning Research
- arxiv url: http://arxiv.org/abs/2406.16241v1
- Date: Sun, 23 Jun 2024 23:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:25:12.031584
- Title: Position: Benchmarking is Limited in Reinforcement Learning Research
- Title(参考訳): 位置づけ: ベンチマークは強化学習研究に限られている
- Authors: Scott M. Jordan, Adam White, Bruno Castro da Silva, Martha White, Philip S. Thomas,
- Abstract要約: 本研究では,厳密な実験設計における計算コストの増大の原因について検討する。
ベンチマークの限界を克服するために、新たな実験パラダイムを使うことを議論する。
- 参考スコア(独自算出の注目度): 33.596940437995904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel reinforcement learning algorithms, or improvements on existing ones, are commonly justified by evaluating their performance on benchmark environments and are compared to an ever-changing set of standard algorithms. However, despite numerous calls for improvements, experimental practices continue to produce misleading or unsupported claims. One reason for the ongoing substandard practices is that conducting rigorous benchmarking experiments requires substantial computational time. This work investigates the sources of increased computation costs in rigorous experiment designs. We show that conducting rigorous performance benchmarks will likely have computational costs that are often prohibitive. As a result, we argue for using an additional experimentation paradigm to overcome the limitations of benchmarking.
- Abstract(参考訳): 新たな強化学習アルゴリズム、あるいは既存のアルゴリズムの改良は、ベンチマーク環境でのパフォーマンスを評価することで一般的に正当化され、常に変化する標準アルゴリズムと比較される。
しかし、多くの改善の要求にもかかわらず、実験的な実践は誤解を招くか、あるいは支持されない主張を生み出し続けている。
進行中のサブスタンダードのプラクティスの1つの理由は、厳密なベンチマーク実験を行うには相当な計算時間が必要であることである。
本研究では,厳密な実験設計における計算コストの増大の原因について検討する。
厳格な性能ベンチマークの実行には、しばしば禁止される計算コストが伴う可能性が示されている。
その結果,ベンチマークの限界を克服するために,新たな実験パラダイムを用いることを議論する。
関連論文リスト
- AExGym: Benchmarks and Environments for Adaptive Experimentation [7.948144726705323]
実世界のデータセットに基づく適応実験のためのベンチマークを提案する。
非定常性、バッチ/遅延フィードバック、複数の成果と目標、外部の妥当性。
論文 参考訳(メタデータ) (2024-08-08T15:32:12Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。
アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。
この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文 参考訳(メタデータ) (2023-06-15T08:47:50Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Adaptive Experimentation at Scale: A Computational Framework for
Flexible Batches [7.390918770007728]
結果がバッチで測定される少数の実測を含む実例によって動機付けられ,適応駆動型実験フレームワークを開発した。
我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。
論文 参考訳(メタデータ) (2023-03-21T04:17:03Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。