論文の概要: Efficient MAP Estimation of LLM Judgment Performance with Prior Transfer
- arxiv url: http://arxiv.org/abs/2504.12589v1
- Date: Thu, 17 Apr 2025 02:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:06.613514
- Title: Efficient MAP Estimation of LLM Judgment Performance with Prior Transfer
- Title(参考訳): 事前転送によるLLM判断性能の効率的なMAP推定
- Authors: Huaizhi Qu, Inyoung Choi, Zhen Tan, Song Wang, Sukwon Yun, Qi Long, Faizan Siddiqui, Kwonjoon Lee, Tianlong Chen,
- Abstract要約: LLMアンサンブル判定の性能を経済的かつ高精度に評価するための,原則的最大アンサンブル(MAP)フレームワークを提案する。
また、我々の分布仮定、適応停止、および理論的に保証された分布推定を提供する事前転送メカニズムを統合するフレームワークであるBetaConformも提示する。
- 参考スコア(独自算出の注目度): 36.046397576509584
- License:
- Abstract: LLM ensembles are widely used for LLM judges. However, how to estimate their accuracy, especially in an efficient way, is unknown. In this paper, we present a principled maximum a posteriori (MAP) framework for an economical and precise estimation of the performance of LLM ensemble judgment. We first propose a mixture of Beta-Binomial distributions to model the judgment distribution, revising from the vanilla Binomial distribution. Next, we introduce a conformal prediction-driven approach that enables adaptive stopping during iterative sampling to balance accuracy with efficiency. Furthermore, we design a prior transfer mechanism that utilizes learned distributions on open-source datasets to improve estimation on a target dataset when only scarce annotations are available. Finally, we present BetaConform, a framework that integrates our distribution assumption, adaptive stopping, and the prior transfer mechanism to deliver a theoretically guaranteed distribution estimation of LLM ensemble judgment with minimum labeled samples. BetaConform is also validated empirically. For instance, with only 10 samples from the TruthfulQA dataset, for a Llama ensembled judge, BetaConform gauges its performance with error margin as small as 3.37%.
- Abstract(参考訳): LLMアンサンブルはLLM審査員に広く使われている。
しかし、その精度を、特に効率的な方法でどのように見積もるかは不明である。
本稿では,LLMアンサンブル判定の性能を経済的かつ高精度に評価するための原則的最大アプリート(MAP)フレームワークを提案する。
まず, ベタビノミカル分布を混合して評価分布をモデル化し, バニラビノミカル分布から再検討する。
次に、反復サンプリング中に適応的な停止を可能とし、精度と効率のバランスをとる等角予測駆動方式を提案する。
さらに、オープンソースデータセット上の学習分布を利用した事前転送機構を設計し、アノテーションが少ない場合にのみターゲットデータセット上の推定を改善する。
最後に、最小ラベル付きサンプルを用いたLLMアンサンブル判定の理論的に保証された分布推定を実現するための、分布仮定、適応停止、および事前転送機構を統合するフレームワークであるBetaConformを提案する。
BetaConformも経験的に検証されている。
例えば、Llamaのアンサンブルされた審査員にとって、TruthfulQAデータセットからのサンプルは10個しかなく、BetaConformはエラーマージンを3.37%に抑えている。
関連論文リスト
- Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。
まず、確率分布に対する一般正規化損失最小化として問題を定式化する。
本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-02-05T07:35:15Z) - Label Distribution Learning using the Squared Neural Family on the Probability Simplex [15.680835401104247]
本研究は,単純度上のラベル分布の確率分布を推定する。
モデル分布では,予測操作を行うことでラベル分布の予測を行うことができる。
ラベル分布に関するさらなる情報は、予測信頼性や不確実性など、推測することができる。
論文 参考訳(メタデータ) (2024-12-10T09:12:02Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - LSB: Local Self-Balancing MCMC in Discrete Spaces [2.385916960125935]
本研究は、純粋に離散的な領域におけるサンプリング効率を向上させるために、機械学習を用いて提案された分布をターゲットに適応させることを検討する。
得られたサンプルをLSB(Locally Self-Balancing Sampler)と呼ぶ。
論文 参考訳(メタデータ) (2021-09-08T18:31:26Z) - Meta-Learning Conjugate Priors for Few-Shot Bayesian Optimization [0.0]
メタラーニングを用いて情報共役の事前分布の推定を自動化する新しい手法を提案する。
このプロセスから、元のデータ分布の形状パラメータを推定するために、わずかなデータしか必要としない先行データを生成する。
論文 参考訳(メタデータ) (2021-01-03T23:58:32Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。