論文の概要: Bayesian Evaluation of Large Language Model Behavior
- arxiv url: http://arxiv.org/abs/2511.10661v1
- Date: Tue, 04 Nov 2025 19:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.24003
- Title: Bayesian Evaluation of Large Language Model Behavior
- Title(参考訳): 大規模言語モデル行動のベイズ的評価
- Authors: Rachel Longjohn, Shang Wu, Saatvik Kher, Catarina Belém, Padhraic Smyth,
- Abstract要約: 大規模言語モデルに基づくテキスト生成システムがどのように振る舞うかを評価することがますます重要である。
既存の評価手法は、しばしば統計的不確実性定量化を無視する。
本稿では,2値評価指標における不確かさの定量化にベイズ的手法を適用した2つのケーススタディを提案する。
- 参考スコア(独自算出の注目度): 11.847752638476257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is increasingly important to evaluate how text generation systems based on large language models (LLMs) behave, such as their tendency to produce harmful output or their sensitivity to adversarial inputs. Such evaluations often rely on a curated benchmark set of input prompts provided to the LLM, where the output for each prompt may be assessed in a binary fashion (e.g., harmful/non-harmful or does not leak/leaks sensitive information), and the aggregation of binary scores is used to evaluate the LLM. However, existing approaches to evaluation often neglect statistical uncertainty quantification. With an applied statistics audience in mind, we provide background on LLM text generation and evaluation, and then describe a Bayesian approach for quantifying uncertainty in binary evaluation metrics. We focus in particular on uncertainty that is induced by the probabilistic text generation strategies typically deployed in LLM-based systems. We present two case studies applying this approach: 1) evaluating refusal rates on a benchmark of adversarial inputs designed to elicit harmful responses, and 2) evaluating pairwise preferences of one LLM over another on a benchmark of open-ended interactive dialogue examples. We demonstrate how the Bayesian approach can provide useful uncertainty quantification about the behavior of LLM-based systems.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくテキスト生成システムは、有害な出力を生成する傾向や、敵の入力に対する感受性など、どのように振る舞うかを評価することがますます重要である。
このような評価は、LLMに提供される入力プロンプトのキュレートされたベンチマークセットに依存しており、各プロンプトの出力をバイナリ方式で評価することができる(例えば、有害/有害または機密情報を漏洩/リークしない)。
しかし、既存の評価手法は統計的不確実性定量化を無視することが多い。
応用統計学の読者を念頭に置いて,LLMテキストの生成と評価の背景を提供し,二進評価指標における不確実性を定量化するためのベイズ的アプローチについて述べる。
我々は特に, LLM ベースのシステムに通常展開される確率的テキスト生成戦略によって引き起こされる不確実性に注目している。
このアプローチを適用した2つのケーススタディを示す。
1)有害反応を誘発するように設計された敵入力の基準における拒絶率の評価及び
2) オープンエンド対話事例のベンチマークにおいて, LLM の相互選好を別の LLM に対して評価した。
ベイズ的手法は, LLMに基づくシステムの挙動について, 有用な不確実性定量化を実現することができることを示す。
関連論文リスト
- LLM-as-a-qualitative-judge: automating error analysis in natural language generation [9.51360830157688]
自然言語生成のための大規模言語モデル(LLM)に基づく評価手法を提案する。
主出力は、NLGシステム出力における共通問題型の構造化されたレポートである。
以上の結果から, LLM-as-a-qualitative-judge が出力するインスタンス固有の問題は, 2/3 例でヒトの注釈と一致した。
論文 参考訳(メタデータ) (2025-06-10T18:01:42Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。