Fugu-MT 論文翻訳(概要): Benchopt: Reproducible, efficient and collaborative optimization benchmarks

論文の概要: Benchopt: Reproducible, efficient and collaborative optimization benchmarks

arxiv url: http://arxiv.org/abs/2206.13424v2
Date: Tue, 28 Jun 2022 09:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-02 23:48:29.400914
Title: Benchopt: Reproducible, efficient and collaborative optimization benchmarks
Title（参考訳）: Benchopt: 再現可能、効率的、協調的な最適化ベンチマーク
Authors: Thomas Moreau, Mathurin Massias, Alexandre Gramfort, Pierre Ablin, Pierre-Antoine Bannier, Benjamin Charlier, Mathieu Dagr\'eou, Tom Dupr\'e la Tour, Ghislain Durif, Cassio F. Dantas, Quentin Klopfenstein, Johan Larsson, En Lai, Tanguy Lefort, Benoit Mal\'ezieux, Badr Moufad, Binh T. Nguyen, Alain Rakotomamonjy, Zaccharie Ramzi, Joseph Salmon, Samuel Vaiter
Abstract要約: Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
参考スコア（独自算出の注目度）: 67.29240500171532
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numerical validation is at the core of machine learning research as it allows to assess the actual impact of new methods, and to confirm the agreement between theory and practice. Yet, the rapid development of the field poses several challenges: researchers are confronted with a profusion of methods to compare, limited transparency and consensus on best practices, as well as tedious re-implementation work. As a result, validation is often very partial, which can lead to wrong conclusions that slow down the progress of research. We propose Benchopt, a collaborative framework to automate, reproduce and publish optimization benchmarks in machine learning across programming languages and hardware architectures. Benchopt simplifies benchmarking for the community by providing an off-the-shelf tool for running, sharing and extending experiments. To demonstrate its broad usability, we showcase benchmarks on three standard learning tasks: $\ell_2$-regularized logistic regression, Lasso, and ResNet18 training for image classification. These benchmarks highlight key practical findings that give a more nuanced view of the state-of-the-art for these problems, showing that for practical evaluation, the devil is in the details. We hope that Benchopt will foster collaborative work in the community hence improving the reproducibility of research findings.
Abstract（参考訳）: 数値検証は、新しい手法の実際の影響を評価し、理論と実践の一致を確認することを可能にするため、機械学習研究の中核である。しかし、この分野の急速な発展にはいくつかの課題がある。研究者は、ベストプラクティスに関する透明性とコンセンサスを限定する手法と、退屈な再実装作業に直面する。その結果、検証は非常に部分的であることが多く、研究の進行を遅らせる間違った結論につながる可能性がある。プログラミング言語とハードウェアアーキテクチャをまたいだ機械学習における最適化ベンチマークを自動化し、再現し、公開するための協調フレームワークであるbenchoptを提案する。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。幅広いユーザビリティを示すために、イメージ分類のための$\ell_2$-regularized logistic regression、Lasso、ResNet18トレーニングの3つの標準学習タスクのベンチマークを示す。これらのベンチマークは、これらの問題の最先端をより微妙に見るための重要な実践的な発見を浮き彫りにし、実際的な評価のために、悪魔が細部にあることを示す。研究成果の再現性を向上させるため、コミュニティにおける共同作業の促進を期待する。

関連論文リスト

RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [29.437125712259046]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-09T17:58:17Z)
On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [53.0667196725616]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。 DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文参考訳（メタデータ） (2025-03-28T16:25:06Z)
Assisting Mathematical Formalization with A Learning-based Premise Retriever [29.06255449960557]
本稿では,数学の形式化を支援するために,前提レトリバーを訓練する革新的な手法を提案する。我々のアプローチでは、証明状態と前提を共有潜在空間に埋め込むためにBERTモデルを採用しています。形式化プロセスの合理化を図り,証明状態を用いてMathlibの定理を直接問合せできる検索エンジンをリリースする。
論文参考訳（メタデータ） (2025-01-21T06:32:25Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
Position: Benchmarking is Limited in Reinforcement Learning Research [33.596940437995904]
本研究では,厳密な実験設計における計算コストの増大の原因について検討する。ベンチマークの限界を克服するために、新たな実験パラダイムを使うことを議論する。
論文参考訳（メタデータ） (2024-06-23T23:36:26Z)
When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文参考訳（メタデータ） (2024-06-11T18:13:46Z)
Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文参考訳（メタデータ） (2024-05-28T11:30:19Z)
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。 LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。各種コードライブラリの推論性能の粗大な解析を行う。
論文参考訳（メタデータ） (2024-04-17T15:57:50Z)
Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文参考訳（メタデータ） (2023-06-15T08:47:50Z)
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。 NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文参考訳（メタデータ） (2022-11-15T18:57:46Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
Building an Efficient and Effective Retrieval-based Dialogue System via Mutual Learning [27.04857039060308]
検索システムを構築するために,両世界の長所を組み合わせることを提案する。従来の機能ベースの事前検索モデルを置き換えるために、高速なバイエンコーダを使用します。我々は、相互学習を通じて、事前検索モデルと再評価モデルとを同時に訓練する。
論文参考訳（メタデータ） (2021-10-01T01:32:33Z)
Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文参考訳（メタデータ） (2020-03-03T15:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。