Fugu-MT 論文翻訳(概要): Personalized Benchmarking with the Ludwig Benchmarking Toolkit

論文の概要: Personalized Benchmarking with the Ludwig Benchmarking Toolkit

arxiv url: http://arxiv.org/abs/2111.04260v1
Date: Mon, 8 Nov 2021 03:53:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-09 14:22:57.751138
Title: Personalized Benchmarking with the Ludwig Benchmarking Toolkit
Title（参考訳）: ludwig benchmarking toolkitによるパーソナライズされたベンチマーク
Authors: Avanika Narayan, Piero Molino, Karan Goel, Willie Neiswanger, Christopher R\'e (Department of Computer Science, Stanford University)
Abstract要約: Ludwig Benchmarking Toolkit (LBT)は、エンドツーエンドのベンチマーク研究を行うためのパーソナライズされたベンチマークツールキットである。 LBTは、トレーニングの制御と評価のカスタマイズのためのインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。 7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。
参考スコア（独自算出の注目度）: 12.347185532330919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid proliferation of machine learning models across domains and deployment settings has given rise to various communities (e.g. industry practitioners) which seek to benchmark models across tasks and objectives of personal value. Unfortunately, these users cannot use standard benchmark results to perform such value-driven comparisons as traditional benchmarks evaluate models on a single objective (e.g. average accuracy) and fail to facilitate a standardized training framework that controls for confounding variables (e.g. computational budget), making fair comparisons difficult. To address these challenges, we introduce the open-source Ludwig Benchmarking Toolkit (LBT), a personalized benchmarking toolkit for running end-to-end benchmark studies (from hyperparameter optimization to evaluation) across an easily extensible set of tasks, deep learning models, datasets and evaluation metrics. LBT provides a configurable interface for controlling training and customizing evaluation, a standardized training framework for eliminating confounding variables, and support for multi-objective evaluation. We demonstrate how LBT can be used to create personalized benchmark studies with a large-scale comparative analysis for text classification across 7 models and 9 datasets. We explore the trade-offs between inference latency and performance, relationships between dataset attributes and performance, and the effects of pretraining on convergence and robustness, showing how LBT can be used to satisfy various benchmarking objectives.
Abstract（参考訳）: ドメイン間の機械学習モデルの急速な拡大とデプロイメント設定は、個人的価値のタスクと目的をまたいだモデルをベンチマークしようとする、さまざまなコミュニティ(例えば業界実践者)を生み出した。残念ながら、従来のベンチマークでは1つの目的(平均精度など)のモデルを評価できるため、標準ベンチマークの結果は使用できないため、変数(計算予算など)のコンバウンドを制御し、公正な比較を困難にしている。ハイパーパラメータ最適化から評価まで)エンド・ツー・エンドのベンチマーク研究を、容易に拡張可能なタスクセット、ディープラーニングモデル、データセット、評価メトリクスで実行するためのパーソナライズされたベンチマークツールキットである、オープンソースのludwig benchmarking toolkit(lbt)を紹介します。 LBTは、トレーニングの制御と評価のカスタマイズのための設定可能なインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。 7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。予測レイテンシとパフォーマンスのトレードオフ,データセット属性とパフォーマンスの関係,および事前トレーニングが収束と堅牢性に与える影響について検討し,様々なベンチマーク目標を満たすためにLBTをどのように使用できるかを示す。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
StaICC: Standardized Evaluation for Classification Task in In-context Learning [3.0531121420837226]
本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
論文参考訳（メタデータ） (2025-01-27T00:05:12Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-27T06:58:52Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文参考訳（メタデータ） (2024-06-14T17:59:54Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)
Dynaboard: An Evaluation-As-A-Service Platform for Holistic Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文参考訳（メタデータ） (2021-05-21T01:17:52Z)
RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。 RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-29T08:58:49Z)
BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文参考訳（メタデータ） (2020-08-11T17:04:47Z)
Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。 EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文参考訳（メタデータ） (2020-06-02T14:10:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。