Fugu-MT 論文翻訳(概要): PPL Bench: Evaluation Framework For Probabilistic Programming Languages

論文の概要: PPL Bench: Evaluation Framework For Probabilistic Programming Languages

arxiv url: http://arxiv.org/abs/2010.08886v1
Date: Sat, 17 Oct 2020 23:12:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 12:24:31.259946
Title: PPL Bench: Evaluation Framework For Probabilistic Programming Languages
Title（参考訳）: PPL Bench:確率型プログラミング言語の評価フレームワーク
Authors: Sourabh Kulkarni, Kinjal Divesh Shah, Nimar Arora, Xiaoyan Wang, Yucen Lily Li, Nazanin Khosravani Tehrani, Michael Tingley, David Noursi, Narjes Torabi, Sepehr Akhavan Masouleh, Eric Lippert, and Erik Meijer
Abstract要約: PPL Benchは、様々な統計モデルに基づいて確率型プログラミング言語(PPL)を評価するための新しいベンチマークである。このベンチマークには、多くのモデルのデータ生成と評価コードと、いくつかの一般的なPPLの実装が含まれている。ベンチマークコードとPPLの実装はすべてGithubで公開されている。
参考スコア（独自算出の注目度）: 2.1847130835757183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce PPL Bench, a new benchmark for evaluating Probabilistic Programming Languages (PPLs) on a variety of statistical models. The benchmark includes data generation and evaluation code for a number of models as well as implementations in some common PPLs. All of the benchmark code and PPL implementations are available on Github. We welcome contributions of new models and PPLs and as well as improvements in existing PPL implementations. The purpose of the benchmark is two-fold. First, we want researchers as well as conference reviewers to be able to evaluate improvements in PPLs in a standardized setting. Second, we want end users to be able to pick the PPL that is most suited for their modeling application. In particular, we are interested in evaluating the accuracy and speed of convergence of the inferred posterior. Each PPL only needs to provide posterior samples given a model and observation data. The framework automatically computes and plots growth in predictive log-likelihood on held out data in addition to reporting other common metrics such as effective sample size and $\hat{r}$.
Abstract（参考訳）: PPL Benchは確率型プログラミング言語(PPL)を様々な統計モデルで評価するための新しいベンチマークである。このベンチマークには、多くのモデルのデータ生成と評価コードと、いくつかの一般的なPPLの実装が含まれている。ベンチマークコードとPPLの実装はすべてGithubで公開されている。我々は、新しいモデルとPPLのコントリビューションと既存のPPL実装の改善を歓迎する。ベンチマークの目的は2つある。まず、研究者やカンファレンスレビュアーが標準化された環境でPPLの改善を評価することを望んでいる。第2に、エンドユーザは、モデリングアプリケーションに最も適したPPLを選択できるようにしたいと思っています。特に、推定された後方の収束の正確性と速度を評価することに関心がある。各PLはモデルと観測データに基づいて後部サンプルを提供する必要がある。このフレームワークは、ホールドアウトデータに対する予測ログライクな成長を自動的に計算しプロットするだけでなく、効果的なサンプルサイズや$\hat{r}$などの一般的なメトリクスをレポートする。

関連論文リスト

RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics [5.645098175233682]
我々は,Large Language Models (LLMs) の帰納的推論能力を評価する新しいタイプのベンチマークに貢献する。本稿では,制御不能な問題を生成し,推論モデルの評価を可能にする完全自動パイプラインを提案する。実験により、テストタイム計算やLCoT(ロングチェーンオブ思想)推論を利用するモデルと、そうでないモデルの間には、かなりのパフォーマンスギャップが明らかになる。
論文参考訳（メタデータ） (2025-05-29T05:51:16Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。 Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文参考訳（メタデータ） (2022-05-12T11:15:47Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Model-based metrics: Sample-efficient estimates of predictive model subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文参考訳（メタデータ） (2021-04-25T19:06:34Z)
Planning with Expectation Models for Control [8.238241895275232]
ワンなど。一定の政策を評価する予測のみの計画を考えました期待モデルによる計画は、アクション値関数ではなく、状態値関数を更新する必要があることを証明します。
論文参考訳（メタデータ） (2021-04-17T13:37:14Z)
Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。条件付き量子モデルの任意の数を集約する手法について検討する。この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文参考訳（メタデータ） (2021-02-26T23:21:16Z)
PClean: Bayesian Data Cleaning at Scale with Domain-Specific Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。 PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文参考訳（メタデータ） (2020-07-23T08:01:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。