論文の概要: A Q-learning Approach for Adherence-Aware Recommendations
- arxiv url: http://arxiv.org/abs/2309.06519v1
- Date: Tue, 12 Sep 2023 18:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:40:46.943076
- Title: A Q-learning Approach for Adherence-Aware Recommendations
- Title(参考訳): アドバンスアウェア・レコメンデーションのためのq-learningアプローチ
- Authors: Ioannis Faros and Aditya Dave and Andreas A. Malikopoulos
- Abstract要約: この問題に対処する「アダランス対応Q-ラーニング」アルゴリズムを開発した。
アルゴリズムは、HDMが推奨行動に従う頻度をキャプチャする「アジェンスレベル」を学習する。
提案したQ-ラーニングアルゴリズムの最適値への収束性を証明し,その性能を様々なシナリオで評価する。
- 参考スコア(独自算出の注目度): 3.066266438258146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world scenarios involving high-stakes and safety implications, a
human decision-maker (HDM) may receive recommendations from an artificial
intelligence while holding the ultimate responsibility of making decisions. In
this letter, we develop an "adherence-aware Q-learning" algorithm to address
this problem. The algorithm learns the "adherence level" that captures the
frequency with which an HDM follows the recommended actions and derives the
best recommendation policy in real time. We prove the convergence of the
proposed Q-learning algorithm to the optimal value and evaluate its performance
across various scenarios.
- Abstract(参考訳): ハイステイクと安全性に関する多くの現実世界のシナリオにおいて、人間の意思決定者(hdm)は、意思決定の究極の責任を負いながら、人工知能から推奨を受ける可能性がある。
本稿では,この問題に対処するために,アドヘレンスアウェアなq-learningアルゴリズムを開発した。
このアルゴリズムは、hdmが推奨アクションに従う頻度をキャプチャする「アドヘレンスレベル」を学習し、最適な推奨ポリシーをリアルタイムで導出する。
提案するq-learningアルゴリズムを最適値に収束させ,その性能を様々なシナリオで評価する。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - A Framework for Effective AI Recommendations in Cyber-Physical-Human
Systems [3.066266438258146]
多くのサイバー物理人間システム(CPHS)は、人工知能(AI)プラットフォームからレコメンデーションを受けることができる人間の意思決定者を含んでいる。
このようなCPHSアプリケーションでは、人間の意思決定者は最適な推奨決定から離脱し、代わりに様々な理由で異なる決定を実装できる。
我々は、AIプラットフォームとは異なる方法でシステムの状態を知覚し、解釈することにより、人間がAIレコメンデーションから逸脱する可能性があると考えている。
論文 参考訳(メタデータ) (2024-03-08T23:02:20Z) - Learning to Make Adherence-Aware Advice [8.419688203654948]
本稿では,人間の従順性を考慮した逐次意思決定モデルを提案する。
最適なアドバイスポリシーを学習し、重要なタイムスタンプでのみアドバイスを行う学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-10-01T23:15:55Z) - A Machine Learning Approach to Two-Stage Adaptive Robust Optimization [6.943816076962257]
本稿では,2段階線形適応ロバスト最適化問題の解法として,機械学習に基づくアプローチを提案する。
私たちは、最適な今と現在の決定、最適な今と現在の決定に関連する最悪のシナリオ、そして最適な待ちと見る決定をエンコードします。
私たちは、現在と現在の決定のための高品質な戦略、最適な今と現在の決定に関連する最悪のシナリオ、待機と見る決定を予測できる機械学習モデルをトレーニングします。
論文 参考訳(メタデータ) (2023-07-23T19:23:06Z) - A Review on Quantum Approximate Optimization Algorithm and its Variants [47.89542334125886]
量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm、QAOA)は、難解な最適化問題を解くことを目的とした、非常に有望な変分量子アルゴリズムである。
この総合的なレビューは、様々なシナリオにおけるパフォーマンス分析を含む、QAOAの現状の概要を提供する。
我々は,提案アルゴリズムの今後の展望と方向性を探りながら,選択したQAOA拡張と変種の比較研究を行う。
論文 参考訳(メタデータ) (2023-06-15T15:28:12Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Multi-Agent Advisor Q-Learning [18.8931184962221]
マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。
本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。
アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
論文 参考訳(メタデータ) (2021-10-26T00:21:15Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。