論文の概要: HIP-LLM: A Hierarchical Imprecise Probability Approach to Reliability Assessment of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.00527v1
- Date: Sat, 01 Nov 2025 12:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.823973
- Title: HIP-LLM: A Hierarchical Imprecise Probability Approach to Reliability Assessment of Large Language Models
- Title(参考訳): HIP-LLM:大規模言語モデルの信頼性評価のための階層的不正確な確率的アプローチ
- Authors: Robab Aghazadeh-Chakherlou, Qing Guo, Siddartha Khastgir, Peter Popov, Xiaoge Zhang, Xingyu Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがって展開され、厳格な信頼性評価方法の必要性が高まっている。
本稿では,LLMの信頼性をモデル化・推定するための階層的不整合確率フレームワークであるHIP-LLMを紹介する。
複数のベンチマークデータセットの実験により、HIP-LLMは既存のベンチマークや最先端アプローチよりも正確で標準化された信頼性特性を提供することが示された。
- 参考スコア(独自算出の注目度): 10.864272918260754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across diverse domains, raising the need for rigorous reliability assessment methods. Existing benchmark-based evaluations primarily offer descriptive statistics of model accuracy over datasets, providing limited insight into the probabilistic behavior of LLMs under real operational conditions. This paper introduces HIP-LLM, a Hierarchical Imprecise Probability framework for modeling and inferring LLM reliability. Building upon the foundations of software reliability engineering, HIP-LLM defines LLM reliability as the probability of failure-free operation over a specified number of future tasks under a given Operational Profile (OP). HIP-LLM represents dependencies across (sub-)domains hierarchically, enabling multi-level inference from subdomain to system-level reliability. HIP-LLM embeds imprecise priors to capture epistemic uncertainty and incorporates OPs to reflect usage contexts. It derives posterior reliability envelopes that quantify uncertainty across priors and data. Experiments on multiple benchmark datasets demonstrate that HIP-LLM offers a more accurate and standardized reliability characterization than existing benchmark and state-of-the-art approaches. A publicly accessible repository of HIP-LLM is provided.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にまたがって展開され、厳格な信頼性評価方法の必要性が高まっている。
既存のベンチマークベースの評価は、主にデータセットよりもモデル精度の記述的な統計を提供し、実際の運用条件下でのLLMの確率的挙動についての限られた洞察を提供する。
本稿では,LLMの信頼性をモデル化し推定するための階層的不整合確率フレームワークであるHIP-LLMを紹介する。
HIP-LLMは、ソフトウェア信頼性工学の基礎の上に構築されており、LLMの信頼性を、指定された操作プロファイル(OP)の下で、指定された多くの将来のタスクに対する障害のない操作の確率として定義している。
HIP-LLMはサブドメイン間の依存関係を階層的に表現し、サブドメインからシステムレベルの信頼性へのマルチレベル推論を可能にする。
HIP-LLMは、先天的な不確実性を捉えるために不正確な前兆を埋め込み、OPを組み込んで使用状況を反映する。
これは、過去のデータとデータの間で不確実性を定量化する後続の信頼性エンベロープを導出する。
複数のベンチマークデータセットの実験により、HIP-LLMは既存のベンチマークや最先端アプローチよりも正確で標準化された信頼性特性を提供することが示された。
HIP-LLMのパブリックアクセスレポジトリが提供される。
関連論文リスト
- MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。
モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。
GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文 参考訳(メタデータ) (2025-04-30T04:24:50Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Amortized Bayesian Multilevel Models [9.831471158899644]
マルチレベルモデル(MLM)はベイズワークフローの中心的なビルディングブロックである。
MLMは重要な計算上の課題を生じさせ、しばしばその推定と評価は合理的な時間制約の中で難解である。
シミュレーションに基づく推論の最近の進歩は、深層生成ネットワークを用いた複雑な確率モデルに対処するための有望な解決策を提供する。
マルチレベルモデルの確率的因数分解を利用して、効率的なニューラルネットワークトレーニングと、未知のデータセットに対する後続の即時推論を容易にするニューラルネットワークアーキテクチャのファミリーを探索する。
論文 参考訳(メタデータ) (2024-08-23T17:11:04Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。