論文の概要: Reward Design for Justifiable Sequential Decision-Making
- arxiv url: http://arxiv.org/abs/2402.15826v1
- Date: Sat, 24 Feb 2024 14:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:39:56.958949
- Title: Reward Design for Justifiable Sequential Decision-Making
- Title(参考訳): 最適順序決定処理のためのリワード設計
- Authors: Aleksa Sukovic, Goran Radanovic
- Abstract要約: 本稿では,強化学習エージェントに対する議論に基づく報酬モデルを提案する。
議論に基づく報酬モデルにより得られるフィードバック信号で報酬を増大させることで、裁判官の好意的な政策が得られることを示す。
- 参考スコア(独自算出の注目度): 12.284934135116515
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Equipping agents with the capacity to justify made decisions using supporting
evidence represents a cornerstone of accountable decision-making. Furthermore,
ensuring that justifications are in line with human expectations and societal
norms is vital, especially in high-stakes situations such as healthcare. In
this work, we propose the use of a debate-based reward model for reinforcement
learning agents, where the outcome of a zero-sum debate game quantifies the
justifiability of a decision in a particular state. This reward model is then
used to train a justifiable policy, whose decisions can be more easily
corroborated with supporting evidence. In the debate game, two argumentative
agents take turns providing supporting evidence for two competing decisions.
Given the proposed evidence, a proxy of a human judge evaluates which decision
is better justified. We demonstrate the potential of our approach in learning
policies for prescribing and justifying treatment decisions of septic patients.
We show that augmenting the reward with the feedback signal generated by the
debate-based reward model yields policies highly favored by the judge when
compared to the policy obtained solely from the environment rewards, while
hardly sacrificing any performance. Moreover, in terms of the overall
performance and justifiability of trained policies, the debate-based feedback
is comparable to the feedback obtained from an ideal judge proxy that evaluates
decisions using the full information encoded in the state. This suggests that
the debate game outputs key information contained in states that is most
relevant for evaluating decisions, which in turn substantiates the practicality
of combining our approach with human-in-the-loop evaluations. Lastly, we
showcase that agents trained via multi-agent debate learn to propose evidence
that is resilient to refutations and closely aligns with human preferences.
- Abstract(参考訳): 支援的な証拠を使って意思決定を正当化する能力を備えたエージェントは、説明責任のある意思決定の基盤となる。
さらに、特に医療などの高い状況において、正当化が人間の期待や社会的規範に沿うことを保証することが不可欠である。
本研究では,ゼロサム討論ゲームの結果が特定の状態における決定の正当性を定量化する,強化学習エージェントに対する議論に基づく報酬モデルを提案する。
この報酬モデルは正当性のある政策を訓練するために使用され、その決定はより容易に証拠と相関できる。
議論ゲームでは、2人の議論的エージェントが交互に、2つの競合する決定を裏付ける証拠を提供する。
提案された証拠から、人間の裁判官の代理人は、どの判断がより正当化されるかを評価する。
敗血症患者の治療決定を規定・正当化するための学習方針におけるアプローチの可能性を示す。
議論に基づく報酬モデルによって生成されたフィードバック信号による報酬の増強は、環境報酬のみから得られる政策に比べ、裁判官が好む政策を多く与える一方で、パフォーマンスを犠牲にしないことを示す。
さらに、訓練されたポリシーの全体的なパフォーマンスと公正性の観点から、議論に基づくフィードバックは、州で符号化された全情報を用いて決定を評価する理想的な判断プロキシから得られるフィードバックに匹敵する。
このことから,議論ゲームは意思決定に最も関係のある状態に含まれる重要な情報を出力し,その結果,我々のアプローチとループ内評価を併用する実践性を実証した。
最後に、マルチエージェントによる議論を通じて訓練されたエージェントが、反響に耐性があり、人間の嗜好と密接に一致している証拠を提案する。
関連論文リスト
- Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。
言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文 参考訳(メタデータ) (2024-09-25T05:28:33Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Decision Theoretic Foundations for Experiments Evaluating Human Decisions [18.27590643693167]
我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。
論文 参考訳(メタデータ) (2024-01-25T16:21:37Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Causal Fairness for Outcome Control [68.12191782657437]
本稿では,自動システムにおいて,公平かつ公平な結果変数を最適化することを目的とした,結果制御と呼ばれる特定の意思決定タスクについて検討する。
本稿では、まず因果レンズを通して利益の概念を分析し、特定の個人が肯定的な決定によってどれだけの利益を得られるかを明らかにする。
次に、保護された属性の影響を受けている可能性があることに留意し、これを分析するために使用できる因果的ツールを提案する。
論文 参考訳(メタデータ) (2023-06-08T09:31:18Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Causal policy ranking [3.7819322027528113]
トレーニングされた政策を前提として,これらの決定が報奨達成に与える因果効果を推定する対実的推論に基づくブラックボックス手法を提案する。
本研究は, 因果アルゴリズムをRLエージェントポリシーの解釈に組み込んだ, 代替的, 非因果的, ランク付け手順と比較し, 今後の課題について考察する。
論文 参考訳(メタデータ) (2021-11-16T12:33:36Z) - A Large Scale Randomized Controlled Trial on Herding in Peer-Review
Discussions [33.261698377782075]
我々は、レビュアーや上級意思決定者が議論で提示された最初の議論に不当に影響されるかどうかを理解することを目的としている。
具体的には,論文の結果に対する議論開始者の意見の条件因果効果をテストすることを目的として,ランダム化試験を設計・実施する。
論文 参考訳(メタデータ) (2020-11-30T18:23:07Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - Explaining reputation assessments [6.87724532311602]
本稿では,定量的評価モデルによる評価の根拠を説明するためのアプローチを提案する。
提案手法は,複数属性決定モデルを用いて決定を下すための既存のアプローチを適応し,拡張し,組み合わせる。
論文 参考訳(メタデータ) (2020-06-15T23:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。