論文の概要: Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling
- arxiv url: http://arxiv.org/abs/2406.07423v1
- Date: Tue, 11 Jun 2024 16:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 15:05:20.301928
- Title: Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling
- Title(参考訳): ELBOsを超えて:サンプリングのための変分法を大規模に評価する
- Authors: Denis Blessing, Xiaogang Jia, Johannes Esslinger, Francisco Vargas, Gerhard Neumann,
- Abstract要約: 標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。
モード崩壊の定量化のための既存のメトリクスについて検討し、この目的のために新しいメトリクスを導入する。
- 参考スコア(独自算出の注目度): 14.668634411361307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo methods, Variational Inference, and their combinations play a pivotal role in sampling from intractable probability distributions. However, current studies lack a unified evaluation framework, relying on disparate performance measures and limited method comparisons across diverse tasks, complicating the assessment of progress and hindering the decision-making of practitioners. In response to these challenges, our work introduces a benchmark that evaluates sampling methods using a standardized task suite and a broad range of performance criteria. Moreover, we study existing metrics for quantifying mode collapse and introduce novel metrics for this purpose. Our findings provide insights into strengths and weaknesses of existing sampling methods, serving as a valuable reference for future developments. The code is publicly available here.
- Abstract(参考訳): モンテカルロ法、変分推論、およびそれらの組み合わせは、難解確率分布のサンプリングにおいて重要な役割を果たす。
しかし、近年の研究には統一的な評価の枠組みが欠如しており、多種多様な課題にまたがる異なるパフォーマンス対策と限られた手法比較に依存しており、進歩の評価を複雑にし、実践者の意思決定を妨げている。
これらの課題に対応するため、標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。
さらに,モード崩壊の定量化のための既存の指標について検討し,新しい指標を導入する。
本研究は,既存のサンプリング手法の長所と短所を考察し,今後の発展への貴重な参考となるものと考えられる。
コードはここで公開されている。
関連論文リスト
- Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文 参考訳(メタデータ) (2024-06-14T17:59:54Z) - Auditing Fairness by Betting [47.53732591434]
我々は,デプロイされた分類モデルと回帰モデルの公平性を評価するための,実用的で効率的で非パラメトリックな手法を提供する。
我々の手法は逐次的であり、入ってくるデータの継続的なモニタリングを可能にする。
提案手法の有効性を3つのベンチマークフェアネスデータセットに示す。
論文 参考訳(メタデータ) (2023-05-27T20:14:11Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。