論文の概要: LLM Personas as a Substitute for Field Experiments in Method Benchmarking
- arxiv url: http://arxiv.org/abs/2512.21080v1
- Date: Wed, 24 Dec 2025 09:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.752312
- Title: LLM Personas as a Substitute for Field Experiments in Method Benchmarking
- Title(参考訳): メソッドベンチマークにおけるフィールド実験の代用としてのLLMペルソナ
- Authors: Enoch Hyunwook Kang,
- Abstract要約: 我々は,人間をペルソナに置き換えることで,適応手法が最適化するベンチマークインターフェースを保っていることを示す。
また、フィールド実験としてペルソナベンチマークを意思決定に関連付けることは、基本的にはサンプルサイズの問題であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Field experiments (A/B tests) are often the most credible benchmark for methods in societal systems, but their cost and latency create a major bottleneck for iterative method development. LLM-based persona simulation offers a cheap synthetic alternative, yet it is unclear whether replacing humans with personas preserves the benchmark interface that adaptive methods optimize against. We prove an if-and-only-if characterization: when (i) methods observe only the aggregate outcome (aggregate-only observation) and (ii) evaluation depends only on the submitted artifact and not on the algorithm's identity or provenance (algorithm-blind evaluation), swapping humans for personas is just panel change from the method's point of view, indistinguishable from changing the evaluation population (e.g., New York to Jakarta). Furthermore, we move from validity to usefulness: we define an information-theoretic discriminability of the induced aggregate channel and show that making persona benchmarking as decision-relevant as a field experiment is fundamentally a sample-size question, yielding explicit bounds on the number of independent persona evaluations required to reliably distinguish meaningfully different methods at a chosen resolution.
- Abstract(参考訳): フィールド実験(A/Bテスト)は、しばしば社会システムにおけるメソッドの最も信頼できるベンチマークであるが、そのコストと遅延は反復的なメソッド開発において大きなボトルネックとなる。
LLMベースのペルソナシミュレーションは安価な合成代替手段を提供するが、適応的手法が最適化するベンチマークインターフェースを人体に置き換えるかどうかは不明である。
if-and-only-if の特徴を証明します。
一 集計結果のみを観察する方法(集約のみの観察)及び
(二)評価は、提出された成果物にのみ依存し、アルゴリズムのアイデンティティや証明(algorithm-blind evaluation)に依存し、人間をペルソナに置き換えることは、評価集団(例えば、ニューヨークからジャカルタ)の変更と区別できない、方法の視点から見れば単なるパネルチェンジである。
さらに、本研究は、誘導された集約チャネルの情報理論的識別可能性を定義し、フィールド実験として決定関連性としてペルソナベンチマークを行うことが、基本的にはサンプルサイズの質問であり、選択された解決において意味のある異なるメソッドを確実に識別するために必要とされる独立したペルソナ評価の数に明確な境界を与えることを示す。
関連論文リスト
- The Sign Estimator: LLM Alignment in the Face of Choice Heterogeneity [4.957619545367733]
従来のアライメント手法は、人間の嗜好の不均一性に対して脆弱である。
そこで我々は,手話推定器という,シンプルで,確実に一貫性があり,効率的な推定器を提供する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-10-28T00:42:38Z) - ACE: Adapting sampling for Counterfactual Explanations [1.3406858660972552]
Counterfactual Explanations (CFE)は、モデルの予測を望ましい出力に変換するために必要な入力機能への最小限の変更を特定することで、機械学習モデルを解釈する。
既存の手法はしばしばサンプル非効率であり、ブラックボックスモデルの多くの評価を必要とする。
本稿では,ベイズ推定と最適化を組み合わせたサンプル効率のアルゴリズムであるACE(Adaptive sample for Counterfactual Explanations)を提案する。
論文 参考訳(メタデータ) (2025-09-30T14:31:03Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - fAux: Testing Individual Fairness via Gradient Alignment [2.5329739965085785]
いずれの要件も持たない個別の公正性をテストするための新しいアプローチについて述べる。
提案手法は,合成データセットと実世界のデータセットの識別を効果的に行う。
論文 参考訳(メタデータ) (2022-10-10T21:27:20Z) - Don't Lie to Me! Robust and Efficient Explainability with Verified
Perturbation Analysis [6.15738282053772]
摂動空間を徹底的に探索することを保証する最初の説明可能性法であるEVAを紹介する。
モデル決定を駆動する可能性が最も高い入力変数を効率よく特徴付けるために、検証された摂動解析の有益性を利用する。
論文 参考訳(メタデータ) (2022-02-15T21:13:55Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。