論文の概要: Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies
- arxiv url: http://arxiv.org/abs/2203.07338v1
- Date: Mon, 14 Mar 2022 17:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 17:39:25.233723
- Title: Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies
- Title(参考訳): 逆オンライン学習:非定常政策と反動政策を理解する
- Authors: Alex J. Chan, Alicia Curth, Mihaela van der Schaar
- Abstract要約: エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
- 参考スコア(独自算出の注目度): 79.60322329952453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human decision making is well known to be imperfect and the ability to
analyse such processes individually is crucial when attempting to aid or
improve a decision-maker's ability to perform a task, e.g. to alert them to
potential biases or oversights on their part. To do so, it is necessary to
develop interpretable representations of how agents make decisions and how this
process changes over time as the agent learns online in reaction to the accrued
experience. To then understand the decision-making processes underlying a set
of observed trajectories, we cast the policy inference problem as the inverse
to this online learning problem. By interpreting actions within a potential
outcomes framework, we introduce a meaningful mapping based on agents choosing
an action they believe to have the greatest treatment effect. We introduce a
practical algorithm for retrospectively estimating such perceived effects,
alongside the process through which agents update them, using a novel
architecture built upon an expressive family of deep state-space models.
Through application to the analysis of UNOS organ donation acceptance
decisions, we demonstrate that our approach can bring valuable insights into
the factors that govern decision processes and how they change over time.
- Abstract(参考訳): 人間の意思決定は不完全であることはよく知られており、そのようなプロセスを個別に分析する能力は、意思決定者のタスク実行能力の補助や向上、例えば潜在的なバイアスやその部分の監視に警告しようとする場合に重要である。
そのためには,エージェントの意思決定方法や,エージェントが経験した経験に反応してオンラインで学習することで,そのプロセスが時間とともにどのように変化するか,といった解釈可能な表現を開発する必要がある。
そこで我々は,このオンライン学習問題に対する政策推論問題を,一連の軌跡の根底にある意思決定プロセスの理解に役立てた。
潜在的な結果フレームワーク内のアクションを解釈することにより、最も治療効果が高いと思われるアクションを選択するエージェントに基づく有意義なマッピングを導入する。
本稿では、エージェントがそれらを更新するプロセスと並行して、状態空間の深層モデルの表現的なファミリ上に構築された新しいアーキテクチャを用いて、そのような影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに貴重な洞察をもたらすことができることを実証する。
関連論文リスト
- Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。
人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。
実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文 参考訳(メタデータ) (2024-11-13T10:42:11Z) - REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability [23.81322529587759]
REVEAL-ITは複雑な環境下でのエージェントの学習過程を説明するための新しいフレームワークである。
各種学習課題における政策構造とエージェントの学習過程を可視化する。
GNNベースの説明者は、ポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。
論文 参考訳(メタデータ) (2024-06-20T11:29:26Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Rational Decision-Making Agent with Internalized Utility Judgment [91.80700126895927]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。
本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。
ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-24T03:11:45Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - Automatic Discovery of Interpretable Planning Strategies [9.410583483182657]
我々は、慣用的ポリシーを単純かつ解釈可能な記述に変換する方法であるAI-Interpretを紹介する。
フローチャートとしてAI-Interpretが生み出す決定ルールを守れば、人々の計画戦略や意思決定は大幅に改善される。
論文 参考訳(メタデータ) (2020-05-24T12:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。