論文の概要: HiBayES: A Hierarchical Bayesian Modeling Framework for AI Evaluation Statistics
- arxiv url: http://arxiv.org/abs/2505.05602v1
- Date: Thu, 08 May 2025 19:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.060753
- Title: HiBayES: A Hierarchical Bayesian Modeling Framework for AI Evaluation Statistics
- Title(参考訳): HiBayES:AI評価統計のための階層型ベイズモデリングフレームワーク
- Authors: Lennart Luettgau, Harry Coppock, Magda Dubois, Christopher Summerfield, Cozmin Ududec,
- Abstract要約: HiBayESはAI評価統計のための一般化可能な階層型ベイズモデリングフレームワークである。
一般化線形モデル(GLM)に基づいて構築されたHiBayESは、原理化された不確実性定量化とロバストなパラメータ推定を提供する。
本稿では、HiBayESの総合的な紹介、例示、従来の統計手法との比較、マルチレベルベイズGLMの実装のための実践的ガイダンスなどを紹介する。
- 参考スコア(独自算出の注目度): 2.6370314285285263
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) and other AI systems evolve, robustly estimating their capabilities from inherently stochastic outputs while systematically quantifying uncertainty in these estimates becomes increasingly important. Further, advanced AI evaluations often have a nested hierarchical structure, exhibit high levels of complexity, and come with high costs in testing the most advanced AI systems. To address these challenges, we introduce HiBayES, a generalizable Hierarchical Bayesian modeling framework for AI Evaluation Statistics. HiBayES supports robust inferences in classical question-answer benchmarks and advanced agentic evaluations, particularly in low-data scenarios (e.g., < 20 data points per evaluation). Built on Generalized Linear Models (GLMs), Bayesian data analysis, and formal model comparison, HiBayES provides principled uncertainty quantification and robust parameter estimation. This paper offers a comprehensive introduction to HiBayES, including illustrative examples, comparisons to conventional statistical methods, and practical guidance for implementing multilevel Bayesian GLMs. Additionally, we provide a HiBayES software package [4] (Beta version) for out-of-the-box implementation.
- Abstract(参考訳): 大規模言語モデル(LLM)や他のAIシステムが進化するにつれて、これらの推定における不確実性を体系的に定量化しながら、本質的に確率的な出力からその能力を頑健に推定することがますます重要になる。
さらに、高度なAI評価は、しばしばネストした階層構造を持ち、高いレベルの複雑さを示し、最も高度なAIシステムをテストする上で高いコストがかかる。
これらの課題に対処するために,AI評価統計のための階層型ベイズモデリングフレームワークであるHiBayESを紹介する。
HiBayESは、古典的な質問応答ベンチマークと高度なエージェント評価、特に低データシナリオ(例えば、評価毎に20のデータポイント)で堅牢な推論をサポートする。
一般化線形モデル(GLM)、ベイズデータ解析、形式モデル比較に基づいて構築されたHiBayESは、原理化された不確実性定量化とロバストなパラメータ推定を提供する。
本稿では、HiBayESの総合的な紹介、例示、従来の統計手法との比較、マルチレベルベイズGLMの実装のための実践的ガイダンスなどを紹介する。
さらに、アウト・オブ・ザ・ボックス実装用のHiBayESソフトウェアパッケージ[4](ベータバージョン)も提供しています。
関連論文リスト
- Position: Bayesian Statistics Facilitates Stakeholder Participation in Evaluation of Generative AI [0.0]
ジェネレーティブAI(GenAI)システムの評価は、公共政策や意思決定において重要な役割を果たす。
既存の手法はベンチマーク駆動の点推定比較に頼ることによって制限されることが多い。
本稿では,ベイズ統計学をこれらの課題に対処するための原則的枠組みとして活用することを主張する。
論文 参考訳(メタデータ) (2025-04-21T16:31:15Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。
仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。
これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文 参考訳(メタデータ) (2025-03-06T09:44:18Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Amortized Bayesian Multilevel Models [9.831471158899644]
マルチレベルモデル(MLM)はベイズワークフローの中心的なビルディングブロックである。
MLMは重要な計算上の課題を生じさせ、しばしばその推定と評価は合理的な時間制約の中で難解である。
シミュレーションに基づく推論の最近の進歩は、深層生成ネットワークを用いた複雑な確率モデルに対処するための有望な解決策を提供する。
マルチレベルモデルの確率的因数分解を利用して、効率的なニューラルネットワークトレーニングと、未知のデータセットに対する後続の即時推論を容易にするニューラルネットワークアーキテクチャのファミリーを探索する。
論文 参考訳(メタデータ) (2024-08-23T17:11:04Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - BayesCap: Bayesian Identity Cap for Calibrated Uncertainty in Frozen
Neural Networks [50.15201777970128]
本研究では,凍結モデルに対するベイズIDマッピングを学習し,不確実性の推定を可能にするBayesCapを提案する。
BayesCapは、元のデータセットのごく一部でトレーニングできる、メモリ効率のよいメソッドである。
本稿では,多種多様なアーキテクチャを用いた多種多様なタスクに対する本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-07-14T12:50:09Z) - Logic Constraints to Feature Importances [17.234442722611803]
AIモデルの"ブラックボックス"の性質は、診断技術や自律的ガイドなど、高度な分野における信頼性の高い応用の限界であることが多い。
近年の研究では、適切な解釈可能性のレベルが、モデル信頼性というより一般的な概念を強制できることが示されている。
本論文の基本的な考え方は,特定のタスクにおける特徴の重要性に関する人間の事前知識を利用して,モデルの適合のフェーズを整合的に支援することである。
論文 参考訳(メタデータ) (2021-10-13T09:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。