論文の概要: Optimal Scoring Rule Design under Partial Knowledge
- arxiv url: http://arxiv.org/abs/2107.07420v3
- Date: Fri, 11 Oct 2024 19:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 17:54:07.690861
- Title: Optimal Scoring Rule Design under Partial Knowledge
- Title(参考訳): 部分的知識に基づく最適スコーリングルール設計
- Authors: Yiling Chen, Fang-Yi Yu,
- Abstract要約: 本研究では,主成分がエージェントの信号分布の部分的知識を持つ場合の最適スコアリングルールについて検討する。
私たちの設定では、プリンシパルはエージェントの信号分布が属する一連の分布のみを知っています。
分布の集合が有限である場合に最適なスコアリングルールを計算するための効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.759870160862205
- License:
- Abstract: This paper studies the design of optimal proper scoring rules when the principal has partial knowledge of an agent's signal distribution. Recent work characterizes the proper scoring rules that maximize the increase of an agent's payoff when the agent chooses to access a costly signal to refine a posterior belief from her prior prediction, under the assumption that the agent's signal distribution is fully known to the principal. In our setting, the principal only knows about a set of distributions where the agent's signal distribution belongs. We formulate the scoring rule design problem as a max-min optimization that maximizes the worst-case increase in payoff across the set of distributions. We propose an efficient algorithm to compute an optimal scoring rule when the set of distributions is finite, and devise a fully polynomial-time approximation scheme that accommodates various infinite sets of distributions. We further remark that widely used scoring rules, such as the quadratic and log rules, as well as previously identified optimal scoring rules under full knowledge, can be far from optimal in our partial knowledge settings.
- Abstract(参考訳): 本稿では,主成分がエージェントの信号分布の部分的知識を持つ場合の最適スコアリングルールの設計について検討する。
最近の研究は、エージェントの信号分布がプリンシパルに完全に知られていると仮定して、エージェントが以前の予測から後続の信条を洗練するためにコストのかかる信号にアクセスする場合、エージェントのペイオフの増加を最大化する適切なスコアリングルールを特徴付ける。
私たちの設定では、プリンシパルはエージェントの信号分布が属する一連の分布のみを知っています。
我々は,最大値最適化としてスコアリングルール設計問題を定式化し,各分布の最悪の増加率を最大化する。
分布の集合が有限であるときに最適なスコアリングルールを計算するための効率的なアルゴリズムを提案し、様々な無限集合の分布に対応する完全多項式時間近似スキームを考案する。
さらに,2次ルールやログルールなど広く使用されているスコアリングルールや,完全知識に基づく最適スコアリングルールが,我々の部分的知識設定において最適とは程遠い,とも述べている。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Are Bounded Contracts Learnable and Approximately Optimal? [8.121834515103243]
本稿では,主エージェントが契約を用いてプロジェクトに取り組む動機付けを行う,主エージェント問題の隠れアクションモデルについて考察する。
本研究では,有界決済契約が学習可能か,ほぼ最適かを検討する。
論文 参考訳(メタデータ) (2024-02-22T12:19:19Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Bi-discriminator Domain Adversarial Neural Networks with Class-Level
Gradient Alignment [87.8301166955305]
そこで本研究では,クラスレベルのアライメントアライメントを有するバイディミネータドメイン対向ニューラルネットワークを提案する。
BACGは、領域分布の整合性を改善するために勾配信号と二階確率推定を利用する。
さらに、対照的な学習にインスパイアされ、トレーニングプロセスを大幅に短縮できるメモリバンクベースの変種であるFast-BACGを開発した。
論文 参考訳(メタデータ) (2023-10-21T09:53:17Z) - FIRE: An Optimization Approach for Fast Interpretable Rule Extraction [7.538482310185135]
本稿では,ツリーアンサンブルから少数の決定ルールを抽出する最適化ベースのフレームワークであるFIRE(Fast Interpretable Rule extract)を提案する。
我々の実験では、FIREはスパースルールセットを構築する際に最先端のアンサンブルアルゴリズムより優れており、既存の手法よりも解釈可能なモデルを提供できることを示した。
論文 参考訳(メタデータ) (2023-06-12T21:27:39Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Computing the optimal distributionally-robust strategy to commit to [32.1464237233989]
分布的に不安定なスタックルバーグ均衡は、常に幅広い不確実性モデルにわたって存在することを示す。
そこで我々は,分散ロバストな強いスタックルバーグ均衡を計算するための2つのアルゴリズムを提案する。
実験は,従来のStackelbergゲーム上でのアルゴリズムのトラクタビリティを裏付けるものである。
論文 参考訳(メタデータ) (2022-09-15T23:20:26Z) - Better Short than Greedy: Interpretable Models through Optimal Rule
Boosting [10.938624307941197]
ルールアンサンブルは、予測精度とモデル解釈可能性の間の有用なトレードオフを提供するように設計されている。
与えられたアンサンブルサイズに対して最大予測力の規則アンサンブルを適合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T01:03:48Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。