論文の概要: Statistical Hypothesis Testing for Auditing Robustness in Language Models
- arxiv url: http://arxiv.org/abs/2506.07947v1
- Date: Mon, 09 Jun 2025 17:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.071764
- Title: Statistical Hypothesis Testing for Auditing Robustness in Language Models
- Title(参考訳): 言語モデルにおけるロバスト性監査のための統計的仮説テスト
- Authors: Paulius Rauba, Qiyao Wei, Mihaela van der Schaar,
- Abstract要約: 本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider the problem of testing whether the outputs of a large language model (LLM) system change under an arbitrary intervention, such as an input perturbation or changing the model variant. We cannot simply compare two LLM outputs since they might differ due to the stochastic nature of the system, nor can we compare the entire output distribution due to computational intractability. While existing methods for analyzing text-based outputs exist, they focus on fundamentally different problems, such as measuring bias or fairness. To this end, we introduce distribution-based perturbation analysis, a framework that reformulates LLM perturbation analysis as a frequentist hypothesis testing problem. We construct empirical null and alternative output distributions within a low-dimensional semantic similarity space via Monte Carlo sampling, enabling tractable inference without restrictive distributional assumptions. The framework is (i) model-agnostic, (ii) supports the evaluation of arbitrary input perturbations on any black-box LLM, (iii) yields interpretable p-values; (iv) supports multiple perturbations via controlled error rates; and (v) provides scalar effect sizes. We demonstrate the usefulness of the framework across multiple case studies, showing how we can quantify response changes, measure true/false positive rates, and evaluate alignment with reference models. Above all, we see this as a reliable frequentist hypothesis testing framework for LLM auditing.
- Abstract(参考訳): 大言語モデル(LLM)システムの出力が、入力摂動やモデル変種の変更など、任意の介入の下で変化するかどうかをテストする問題を考える。
2つのLCM出力を比較するのは、システムの確率的性質によって異なるかもしれないし、計算の難易度によって出力分布全体を比較できないからである。
テキストベースのアウトプットを解析する既存の手法は存在するが、偏見や公平さの計測など、根本的に異なる問題に焦点を当てている。
そこで本研究では, LLM摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を導入する。
我々はモンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替的な出力分布を構築し、限定的な分布仮定を使わずに抽出可能な推論を可能にする。
フレームワークは
(i)モデル非依存
(ii)任意のブラックボックスLSMにおける任意の入力摂動の評価を支援する。
三 解釈可能なp-値を得る。
(iv) 制御エラー率による複数の摂動をサポートし、
(v)スカラー効果サイズを提供する。
複数のケーススタディでフレームワークの有用性を実証し、反応の変化を定量化し、正/偽の正の確率を計測し、参照モデルとの整合性を評価する方法を示した。
LLM監査のための信頼性の高い頻繁な仮説テストフレームワークであると考えています。
関連論文リスト
- Ensemble based approach to quantifying uncertainty of LLM based classifications [1.6231286831423648]
モデルを微調整すると、語彙入力のバリエーションに対するモデル出力の感度が低下する。
予測クラスの確実性を推定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T18:42:42Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Quantifying perturbation impacts for large language models [49.1574468325115]
本稿では、頻繁な仮説テスト問題として摂動解析を再構成するフレームワークDBPAを紹介する。
摂動影響評価におけるDBPAの有効性を示すとともに,摂動解析の汎用性を示す。
論文 参考訳(メタデータ) (2024-12-01T16:13:09Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A hypothesis-driven method based on machine learning for neuroimaging
data analysis [0.0]
脳画像の空間パターンを識別するための機械学習アプローチは、特徴抽出と線形分類タスクに限定されている。
従来の一般線形モデル(GLM)の推定は,一変量分類タスクに関係していることを示す。
我々は, 線形支持ベクトル回帰(SVR-iGLM)から得られるパラメータに基づいて, GLMを用いた改良された統計的検定を導出する。
マルチサイトイニシアチブの実際のデータを用いて、提案されたMLEベースの推論は、統計的パワーと偽陽性の制御を示し、正規Gよりも優れている。
論文 参考訳(メタデータ) (2022-02-09T11:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。