論文の概要: Pandora's Regret: A Proper Scoring Rule for Evaluating Sequential Search
- arxiv url: http://arxiv.org/abs/2605.01936v1
- Date: Sun, 03 May 2026 15:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.005081
- Title: Pandora's Regret: A Proper Scoring Rule for Evaluating Sequential Search
- Title(参考訳): PandoraのRegret: シークエンシャル検索を評価するための適切なスコア付けルール
- Authors: Gerardo A. Flores, Yash Deshpande, Jannis R. Brea, Ashia C. Wilson,
- Abstract要約: 逐次探索は、これを克服するペアワイズ構造を誘導することを示す。
PandoraのRegretは、真の確率を与え、ランクを逆転する誤判定を罰する。
ログの損失、精度、マクロF1は、シーケンシャル検索と一致しない暗黙的な決定モデルに依存していることを示す。
- 参考スコア(独自算出の注目度): 4.661726851888053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In sequential search, alternatives are tested until the true class is found. Standard proper scoring rules like log loss are local, ignoring the ranking of competitors and misaligning model evaluation with search utility. We show that sequential search induces a pairwise structure that overcomes this. By analyzing the expected cost of optimal search under varying testing costs, we derive Pandora's Regret: a closed-form, pairwise-additive, and strictly proper scoring rule. Pandora's Regret both elicits true probabilities and penalizes rank-reversing miscalibrations where distractors outrank the true class. Our construction yields a one-parameter Beta family that balances penalties for rank-swapping versus probability magnitude, while retaining a grounded interpretation as expected search cost. We prove that log loss, accuracy, and macro-F1 rely on implicit decision models misaligned with sequential search. Across 597 MedMNIST models, Pandora-based metrics better predict clinical diagnostic costs than standard alternatives, extending decision-theoretic scoring rule construction to the multiclass setting.
- Abstract(参考訳): シーケンシャル検索では、真のクラスが見つかるまで代替品がテストされる。
ログ損失のような標準的な適切なスコアリングルールはローカルであり、競合のランキングを無視し、検索ユーティリティによるモデル評価を誤ったものにしている。
逐次探索は、これを克服するペアワイズ構造を誘導することを示す。
様々なテストコストの下で最適探索の期待コストを分析することで、PandoraのRegret: a closed-form, pairwise-additive, and strictly proper score ruleを導出する。
PandoraのRegretは、真の確率を導き、邪魔者が真のクラスを上回るランク逆転の誤判定を罰する。
我々の構成では、ランクスワッピングと確率等級のペナルティのバランスをとる1パラメータのベータファミリーが得られ、検索コストは期待されている。
ログの損失、精度、マクロF1は、シーケンシャル検索と一致しない暗黙的な決定モデルに依存していることを示す。
597 MedMNISTモデル全体で、Pandoraベースのメトリクスは、標準的な選択肢よりも臨床診断コストを予測し、意思決定理論のスコアリングルールの構築をマルチクラス設定に拡張する。
関連論文リスト
- APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation [26.371939617653084]
生成レコメンデーションは自動回帰生成プロセスであり、ユーザインタラクション履歴に基づいて、次の項目の離散トークンを予測する。
既存の生成レコメンデーションモデルは、通常、クロスエントロピー損失のようなトークンレベルの可能性目標で訓練される。
標準的なトレーニングでは、推論中にビームサーチが低確率の分岐を産み出すという事実を無視して、地道の歴史が常に利用可能であると仮定している。
論文 参考訳(メタデータ) (2026-03-03T08:29:15Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - Minimax Optimality in Contextual Dynamic Pricing with General Valuation Models [8.981637739384674]
意思決定者は、観測可能なコンテキストに基づいてパーソナライズされた価格を投稿する。
それぞれのバリュエーションはコンテキストの未知の潜在関数としてモデル化され、独立性と同一に分散された市場ノイズによって破損する。
論文 参考訳(メタデータ) (2024-06-24T23:43:56Z) - Bandit-Feedback Online Multiclass Classification: Variants and Tradeoffs [32.29254118429081]
我々は,帯域幅フィードバックの下での最適誤りが,全情報ケースの最適誤りよりも少なくとも$O(k)$倍高いことを示す。
また、ランダム化学習者と決定論的学習者の間のギャップに対して、$tildeTheta(k)$のほぼ最適な境界を示す。
論文 参考訳(メタデータ) (2024-02-12T07:20:05Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - PiRank: Learning To Rank via Differentiable Sorting [85.28916333414145]
ランク付けのための新しい分類可能なサロゲートであるPiRankを提案する。
ピランクは所望の指標をゼロ温度の限界で正確に回収する。
論文 参考訳(メタデータ) (2020-12-12T05:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。