論文の概要: The Best Decisions Are Not the Best Advice: Making Adherence-Aware
Recommendations
- arxiv url: http://arxiv.org/abs/2209.01874v1
- Date: Mon, 5 Sep 2022 10:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:42:05.762354
- Title: The Best Decisions Are Not the Best Advice: Making Adherence-Aware
Recommendations
- Title(参考訳): 最善の決定は最善のアドバイスではない - 順守を意識した推奨を行う
- Authors: Julien Grand-Cl\'ement and Jean Pauphilet
- Abstract要約: 本稿では,提案したポリシーと実装したポリシーの二分法を捉えるためのアテンデンス対応最適化フレームワークを提案する。
現在,ほとんどのレコメンデーションエンジンが実施している部分付着現象の見落としは,任意に性能劣化を引き起こす可能性があることを示す。
また,本フレームワークは,このようなヒトの偏りに対して自然に免疫する最適な推奨ポリシーを解析し,計算するための有用なツールも提供する。
- 参考スコア(独自算出の注目度): 4.082216579462797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many high-stake decisions follow an expert-in-loop structure in that a human
operator receives recommendations from an algorithm but is the ultimate
decision maker. Hence, the algorithm's recommendation may differ from the
actual decision implemented in practice. However, most algorithmic
recommendations are obtained by solving an optimization problem that assumes
recommendations will be perfectly implemented. We propose an adherence-aware
optimization framework to capture the dichotomy between the recommended and the
implemented policy and analyze the impact of partial adherence on the optimal
recommendation. We show that overlooking the partial adherence phenomenon, as
is currently being done by most recommendation engines, can lead to arbitrarily
severe performance deterioration, compared with both the current human baseline
performance and what is expected by the recommendation algorithm. Our framework
also provides useful tools to analyze the structure and to compute optimal
recommendation policies that are naturally immune against such human
deviations, and are guaranteed to improve upon the baseline policy.
- Abstract(参考訳): 多くのhigh-stake decisionは、人間のオペレータがアルゴリズムからレコメンデーションを受けるが、究極の意思決定者であるという、expert-in-loop構造に従う。
したがって、アルゴリズムの推奨は、実際に実施されている実際の決定と異なるかもしれない。
しかし、ほとんどのアルゴリズムレコメンデーションは、レコメンデーションが完全に実装されると仮定する最適化問題を解くことで得られる。
提案手法は,提案したポリシーと実装したポリシーの二分法を捕捉し,部分的付着が最適勧告に与える影響を分析する。
提案手法では,現在の人体ベースライン性能と推奨アルゴリズムの双方と比較して,現在ほとんどのレコメンデーションエンジンが実施している部分付着現象を見越すことで,任意の性能劣化を招きかねないことが示されている。
また,本フレームワークは,このような人的逸脱に対して自然に免疫を持ち,基本方針の改善が保証される,構造を解析し,最適なレコメンデーションポリシーを算出するための有用なツールを提供する。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Expert-guided Bayesian Optimisation for Human-in-the-loop Experimental
Design of Known Systems [0.0]
我々は,高スループット(バッチ)ベイズ最適化と人類学的決定理論を併用して,ドメインの専門家が最適実験の選択に影響を及ぼすことを可能にする。
我々の方法論は、人間が連続的な選択よりも個別に選択する方が優れているという仮説を利用しており、専門家が重要な早期決定に影響を及ぼすことを可能にする。
論文 参考訳(メタデータ) (2023-12-05T16:09:31Z) - Pessimistic Off-Policy Multi-Objective Optimization [22.525654101072252]
既存のポリシーによって収集されたデータから,多目的ポリシーのオフライン最適化について検討する。
本稿では,多目的ポリシー値に対する悲観的推定器を提案する。
論文 参考訳(メタデータ) (2023-10-28T06:50:15Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [71.65874793547107]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Algorithmic Assistance with Recommendation-Dependent Preferences [2.864550757598007]
選択に影響を及ぼすアルゴリズムレコメンデーションの効果と設計について考察する。
我々は、レコメンデーションに依存した選好が、意思決定者がレコメンデーションに過度に反応する非効率性を生み出すことを示す。
論文 参考訳(メタデータ) (2022-08-16T09:24:47Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Bayesian Persuasion for Algorithmic Recourse [28.586165301962485]
いくつかの状況では、根底にある予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。
我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションのようなシグナルを、望ましい行動を取るためのインセンティブを与える決定対象に送信する。
本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムを用いて解を特徴づける。
論文 参考訳(メタデータ) (2021-12-12T17:18:54Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。