論文の概要: The Best Decisions Are Not the Best Advice: Making Adherence-Aware
Recommendations
- arxiv url: http://arxiv.org/abs/2209.01874v3
- Date: Fri, 16 Jun 2023 16:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:24:14.927091
- Title: The Best Decisions Are Not the Best Advice: Making Adherence-Aware
Recommendations
- Title(参考訳): 最善の決定は最善のアドバイスではない - 順守を意識した推奨を行う
- Authors: Julien Grand-Cl\'ement and Jean Pauphilet
- Abstract要約: 本稿では,提案したポリシーと実装したポリシーの二分法を捉えるためのアテンデンス対応最適化フレームワークを提案する。
現在,ほとんどのレコメンデーションエンジンが実施している部分付着現象の見落としは,任意に性能劣化を引き起こす可能性があることを示す。
また,本フレームワークは,このようなヒトの偏りに対して自然に免疫する最適な推奨ポリシーを解析し,計算するための有用なツールも提供する。
- 参考スコア(独自算出の注目度): 4.082216579462797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many high-stake decisions follow an expert-in-loop structure in that a human
operator receives recommendations from an algorithm but is the ultimate
decision maker. Hence, the algorithm's recommendation may differ from the
actual decision implemented in practice. However, most algorithmic
recommendations are obtained by solving an optimization problem that assumes
recommendations will be perfectly implemented. We propose an adherence-aware
optimization framework to capture the dichotomy between the recommended and the
implemented policy and analyze the impact of partial adherence on the optimal
recommendation. We show that overlooking the partial adherence phenomenon, as
is currently being done by most recommendation engines, can lead to arbitrarily
severe performance deterioration, compared with both the current human baseline
performance and what is expected by the recommendation algorithm. Our framework
also provides useful tools to analyze the structure and to compute optimal
recommendation policies that are naturally immune against such human
deviations, and are guaranteed to improve upon the baseline policy.
- Abstract(参考訳): 多くのhigh-stake decisionは、人間のオペレータがアルゴリズムからレコメンデーションを受けるが、究極の意思決定者であるという、expert-in-loop構造に従う。
したがって、アルゴリズムの推奨は、実際に実施されている実際の決定と異なるかもしれない。
しかし、ほとんどのアルゴリズムレコメンデーションは、レコメンデーションが完全に実装されると仮定する最適化問題を解くことで得られる。
提案手法は,提案したポリシーと実装したポリシーの二分法を捕捉し,部分的付着が最適勧告に与える影響を分析する。
提案手法では,現在の人体ベースライン性能と推奨アルゴリズムの双方と比較して,現在ほとんどのレコメンデーションエンジンが実施している部分付着現象を見越すことで,任意の性能劣化を招きかねないことが示されている。
また,本フレームワークは,このような人的逸脱に対して自然に免疫を持ち,基本方針の改善が保証される,構造を解析し,最適なレコメンデーションポリシーを算出するための有用なツールを提供する。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Designing Algorithmic Recommendations to Achieve Human-AI Complementarity [2.4247752614854203]
人間の意思決定を支援するレコメンデーションアルゴリズムの設計を形式化する。
我々は、潜在的なアウトカムフレームワークを使用して、ヒトの意思決定者による二元的治療選択に対するレコメンデーションの効果をモデル化する。
機械学習で実装可能な最小限の推奨アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-05-02T17:15:30Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Pessimistic Off-Policy Multi-Objective Optimization [22.525654101072252]
既存のポリシーによって収集されたデータから,多目的ポリシーのオフライン最適化について検討する。
本稿では,多目的ポリシー値に対する悲観的推定器を提案する。
論文 参考訳(メタデータ) (2023-10-28T06:50:15Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Algorithmic Assistance with Recommendation-Dependent Preferences [2.864550757598007]
選択に影響を及ぼすアルゴリズムレコメンデーションの効果と設計について考察する。
我々は、レコメンデーションに依存した選好が、意思決定者がレコメンデーションに過度に反応する非効率性を生み出すことを示す。
論文 参考訳(メタデータ) (2022-08-16T09:24:47Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Bayesian Persuasion for Algorithmic Recourse [28.586165301962485]
いくつかの状況では、根底にある予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。
我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションのようなシグナルを、望ましい行動を取るためのインセンティブを与える決定対象に送信する。
本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムを用いて解を特徴づける。
論文 参考訳(メタデータ) (2021-12-12T17:18:54Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。