Fugu-MT 論文翻訳(概要): Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling

論文の概要: Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling

arxiv url: http://arxiv.org/abs/2406.07423v1
Date: Tue, 11 Jun 2024 16:23:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 15:05:20.301928
Title: Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling
Title（参考訳）: ELBOsを超えて:サンプリングのための変分法を大規模に評価する
Authors: Denis Blessing, Xiaogang Jia, Johannes Esslinger, Francisco Vargas, Gerhard Neumann,
Abstract要約: 標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。モード崩壊の定量化のための既存のメトリクスについて検討し、この目的のために新しいメトリクスを導入する。
参考スコア（独自算出の注目度）: 14.668634411361307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monte Carlo methods, Variational Inference, and their combinations play a pivotal role in sampling from intractable probability distributions. However, current studies lack a unified evaluation framework, relying on disparate performance measures and limited method comparisons across diverse tasks, complicating the assessment of progress and hindering the decision-making of practitioners. In response to these challenges, our work introduces a benchmark that evaluates sampling methods using a standardized task suite and a broad range of performance criteria. Moreover, we study existing metrics for quantifying mode collapse and introduce novel metrics for this purpose. Our findings provide insights into strengths and weaknesses of existing sampling methods, serving as a valuable reference for future developments. The code is publicly available here.
Abstract（参考訳）: モンテカルロ法、変分推論、およびそれらの組み合わせは、難解確率分布のサンプリングにおいて重要な役割を果たす。しかし、近年の研究には統一的な評価の枠組みが欠如しており、多種多様な課題にまたがる異なるパフォーマンス対策と限られた手法比較に依存しており、進歩の評価を複雑にし、実践者の意思決定を妨げている。これらの課題に対応するため、標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。さらに,モード崩壊の定量化のための既存の指標について検討し,新しい指標を導入する。本研究は,既存のサンプリング手法の長所と短所を考察し,今後の発展への貴重な参考となるものと考えられる。コードはここで公開されている。

関連論文リスト

Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。 GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文参考訳（メタデータ） (2025-04-30T04:24:50Z)
Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文参考訳（メタデータ） (2024-10-17T03:08:28Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文参考訳（メタデータ） (2024-06-14T17:59:54Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
On the role of benchmarking data sets and simulations in method comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文参考訳（メタデータ） (2022-08-02T13:47:53Z)
Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文参考訳（メタデータ） (2022-05-20T20:50:17Z)
Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文参考訳（メタデータ） (2022-03-24T03:49:04Z)
Evaluation of post-hoc interpretability methods in time-series classification [0.6249768559720122]
本稿では,既存のポストホック解釈可能性法の性能を評価するために,定量的な指標を用いたフレームワークを提案する。文献で確認されたいくつかの欠点、すなわち、人間の判断、再訓練、サンプルを除外する際のデータ分布の変化に対処できることが示される。提案手法と定量的なメトリクスを用いて,実践的な応用で得られた解釈可能性手法の信頼性を理解することができる。
論文参考訳（メタデータ） (2022-02-11T14:55:56Z)
An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文参考訳（メタデータ） (2021-08-15T15:05:02Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。