Fugu-MT 論文翻訳(概要): When prompt perturbations break your A/B test: A valid statistical test for generative surveying

論文の概要: When prompt perturbations break your A/B test: A valid statistical test for generative surveying

arxiv url: http://arxiv.org/abs/2605.27463v1
Date: Tue, 26 May 2026 00:35:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-29 01:06:09.716588
Title: When prompt perturbations break your A/B test: A valid statistical test for generative surveying
Title（参考訳）: 急激な摂動がA/B検査を破る時-生成的サーベイのための有効な統計的テスト-
Authors: Hayden Helm, Carey Priebe,
Abstract要約: そこで本研究では,手話検定やウィルコクソン署名ランク検定を含む標準仮説検定が,生成的サーベイの統計モデルの下では無効であることを示す。本稿では,本モデルで有効な置換テストを提案し,標準テストが失敗する条件を正式に特徴付ける。
参考スコア（独自算出の注目度）: 0.3366038232188622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative surveying -- where collections of LLM-based personas provide feedback on messages -- has emerged as a cheap and scalable alternative to traditional market research. However, LLMs are sensitive to small variations in prompt design and conclusions drawn from generative surveys may depend on arbitrary phrasing choices. Controlling for this sensitivity requires including semantically equivalent perturbations in the analysis. In this paper, we show that standard hypothesis tests, including the sign test and Wilcoxon signed-rank test, are invalid under a statistical model for generative surveying that includes realistic perturbation structure. We propose a permutation test that is valid under this model and formally characterize the conditions under which standard tests fail. Applying our framework to a simple generative surveying problem, we estimate relevant parameters, characterize the power of the permutation test under realistic conditions, and provide practical guidance on budget allocation across personas, perturbations, and replicates. Finally, we show that both the magnitude and direction of the estimated effect are sensitive to the choice of model, even within the same model family.
Abstract（参考訳）: LLMベースのペルソナのコレクションがメッセージに対してフィードバックを提供するジェネレーティブサーベイは、従来の市場調査に代わる安価でスケーラブルな選択肢として現れています。しかし、LCMは、素早い設計の小さなバリエーションに敏感であり、生成的調査から引き出された結論は、任意のフレーズ選択に依存する可能性がある。この感度の制御には、解析に意味論的に等価な摂動を含める必要がある。本稿では, シグナーテストとウィルコクソン署名ランクテストを含む標準仮説テストが, 現実的な摂動構造を含む世代調査の統計モデルの下では無効であることを示す。本稿では,本モデルで有効な置換テストを提案し,標準テストが失敗する条件を正式に特徴付ける。枠組みを単純な生成的調査問題に適用し、関連するパラメータを推定し、現実的な条件下での置換テストのパワーを特徴づけ、ペルソナ、摂動、複製の予算配分に関する実践的なガイダンスを提供する。最後に,推定効果の大きさと方向がモデル選択に敏感であることを示す。

関連論文リスト

Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文参考訳（メタデータ） (2025-06-09T17:11:07Z)
A Fresh Look at Sanity Checks for Saliency Maps [3.371877306561591]
モデルランダム化テスト(MPRT)の2つの修正を提案する。前者はサンプリングによる評価結果に対するノイズの影響を低減し、後者はバイアス付き類似度測定の必要性を回避する。実験の結果,これらの変更により計量信頼性が向上し,説明手法の信頼性向上が図られた。
論文参考訳（メタデータ） (2024-05-03T15:47:32Z)
Hypothesis Testing for Class-Conditional Noise Using Local Maximum Likelihood [1.8798171797988192]
教師付き学習では、学習が行われる前にラベルの質を自動的に評価することがオープンな研究課題である。本稿では,本モデルが局所極大近似推定の積である場合,同様の手順を踏襲できることを示す。この異なるビューは、よりリッチなモデルクラスへのアクセスを提供することで、テストのより広範な適用を可能にする。
論文参考訳（メタデータ） (2023-12-15T22:14:58Z)
Can You Rely on Your Model Evaluation? Improving Model Evaluation with Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文参考訳（メタデータ） (2023-10-25T10:18:44Z)
A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。 TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文参考訳（メタデータ） (2023-03-27T16:32:21Z)
Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文参考訳（メタデータ） (2022-11-22T18:52:38Z)
fAux: Testing Individual Fairness via Gradient Alignment [2.5329739965085785]
いずれの要件も持たない個別の公正性をテストするための新しいアプローチについて述べる。提案手法は,合成データセットと実世界のデータセットの識別を効果的に行う。
論文参考訳（メタデータ） (2022-10-10T21:27:20Z)
Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文参考訳（メタデータ） (2022-04-06T06:39:40Z)
Calibrating Over-Parametrized Simulation Models: A Framework via Eligibility Set [3.862247454265944]
厳密な頻繁な統計的保証を満たす校正手法を開発するための枠組みを開発する。本手法は,書籍市場シミュレータのキャリブレーションへの応用を含む,いくつかの数値例で実証する。
論文参考訳（メタデータ） (2021-05-27T00:59:29Z)
Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文参考訳（メタデータ） (2020-10-05T22:13:21Z)
Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文参考訳（メタデータ） (2020-06-08T00:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。