論文の概要: Best Arm Identification with LLM Judges and Limited Human
- arxiv url: http://arxiv.org/abs/2601.21471v1
- Date: Thu, 29 Jan 2026 09:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.714268
- Title: Best Arm Identification with LLM Judges and Limited Human
- Title(参考訳): LLM審査員と限定人間によるベストアーム識別
- Authors: Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi,
- Abstract要約: 固定信頼ベストアーム識別(BAI)について検討する。
本研究では,各アームの平均値と逆正当性重み付け残差を結合した平均値の推定器を開発する。
推定器と信頼性シーケンスに基づいて,アームを適応的に選択し,監査するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.85883540190321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study fixed-confidence best-arm identification (BAI) where a cheap but potentially biased proxy (e.g., LLM judge) is available for every sample, while an expensive ground-truth label can only be acquired selectively when using a human for auditing. Unlike classical multi-fidelity BAI, the proxy is biased (arm- and context-dependent) and ground truth is selectively observed. Consequently, standard multi-fidelity methods can mis-select the best arm, and uniform auditing, though accurate, wastes scarce resources and is inefficient. We prove that without bias correction and propensity adjustment, mis-selection probability may not vanish (even with unlimited proxy data). We then develop an estimator for the mean of each arm that combines proxy scores with inverse-propensity-weighted residuals and form anytime-valid confidence sequences for that estimator. Based on the estimator and confidence sequence, we propose an algorithm that adaptively selects and audits arms. The algorithm concentrates audits on unreliable contexts and close arms and we prove that a plug-in Neyman rule achieves near-oracle audit efficiency. Numerical experiments confirm the theoretical guarantees and demonstrate the superior empirical performance of the proposed algorithm.
- Abstract(参考訳): 各サンプルに対して,安価かつ偏りのあるプロキシ(例えばLLM審査員)が利用可能である固定信頼ベストアーム識別(BAI)について検討した。
古典的多面性BAIとは異なり、プロキシは偏り(アームとコンテキストに依存し)、基底真理は選択的に観察される。
その結果、標準的な多面的手法は、最高の腕を誤って選び、統一的な監査は正確ではあるが、資源を無駄にし、非効率である。
偏差補正や正当性調整がなければ、(無制限のプロキシデータであっても)誤選択の確率は消えないことが証明される。
次に、各アームの平均値に対する推定器を開発し、プロキシスコアと逆確率重み付け残差を組み合わせ、その推定器の任意の時間価信頼シーケンスを生成する。
推定器と信頼性シーケンスに基づいて,アームを適応的に選択し,監査するアルゴリズムを提案する。
このアルゴリズムは信頼性の低いコンテキストとクローズアームに監査を集中させ,プラグインのNeymanルールがほぼオーディエンス効率を達成することを証明した。
数値実験により理論的保証を確認し,提案アルゴリズムの優れた経験的性能を示す。
関連論文リスト
- Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges [14.256638949961063]
これに対応するために、"ノイズだが妥当"な仮説テストフレームワークを導入します。
本フレームワークは,キャリブレーションの不確実性にもかかわらず,有限サンプル型Iエラー制御(正当性)を理論的に保証する。
論文 参考訳(メタデータ) (2026-01-28T18:05:06Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Individually Fair Learning with One-Sided Feedback [15.713330010191092]
我々は,学習者が正に予測されたインスタンスに対してのみ真のラベルを観察できる,一方的なフィードバックを伴うオンライン学習問題を考察する。
各ラウンドで$k$インスタンスが到着し、学習者が配置したランダム化ポリシーに従って分類結果を受け取る。
そこで我々は,一方的なフィードバックによるオンライン学習の問題から,文脈的半帯域問題に対する公平性違反を報告したパネルを構築。
論文 参考訳(メタデータ) (2022-06-09T12:59:03Z) - Trustworthy Preference Completion in Social Choice [36.91054060923998]
すべての選択肢に対して線形順序を与えるようにエージェントに頼むのは非現実的であり、これらの部分的なランク付けは選好完了を行う必要がある。
信頼ベースのアンカー-kNNアルゴリズムは、信頼指向のケンダル-トー距離を持つエージェントの最も信頼できる隣人を見つけるために提案される。
最初の$k$信頼に値する隣接エージェントに対する特定の共通投票ルールは、確実性と紛争に基づいて、信頼に値する選好完了を行うために適用することができる。
論文 参考訳(メタデータ) (2020-12-14T03:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。