論文の概要: Online Decision Mediation
- arxiv url: http://arxiv.org/abs/2310.18601v1
- Date: Sat, 28 Oct 2023 05:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:44:19.817828
- Title: Online Decision Mediation
- Title(参考訳): オンライン意思決定仲介
- Authors: Daniel Jarrett, Alihan H\"uy\"uk, Mihaela van der Schaar
- Abstract要約: 意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
- 参考スコア(独自算出の注目度): 72.80902932543474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider learning a decision support assistant to serve as an intermediary
between (oracle) expert behavior and (imperfect) human behavior: At each time,
the algorithm observes an action chosen by a fallible agent, and decides
whether to *accept* that agent's decision, *intervene* with an alternative, or
*request* the expert's opinion. For instance, in clinical diagnosis,
fully-autonomous machine behavior is often beyond ethical affordances, thus
real-world decision support is often limited to monitoring and forecasting.
Instead, such an intermediary would strike a prudent balance between the former
(purely prescriptive) and latter (purely descriptive) approaches, while
providing an efficient interface between human mistakes and expert feedback. In
this work, we first formalize the sequential problem of *online decision
mediation* -- that is, of simultaneously learning and evaluating mediator
policies from scratch with *abstentive feedback*: In each round, deferring to
the oracle obviates the risk of error, but incurs an upfront penalty, and
reveals the otherwise hidden expert action as a new training data point.
Second, we motivate and propose a solution that seeks to trade off (immediate)
loss terms against (future) improvements in generalization error; in doing so,
we identify why conventional bandit algorithms may fail. Finally, through
experiments and sensitivities on a variety of datasets, we illustrate
consistent gains over applicable benchmarks on performance measures with
respect to the mediator policy, the learned model, and the decision-making
system as a whole.
- Abstract(参考訳): 決定支援アシスタントの学習は、(oracle)専門家の行動と(不完全な)人間の行動の間の仲介役として機能する。 アルゴリズムは、それぞれの時間に、落下可能なエージェントによって選択されたアクションを観察し、そのエージェントの決定を *accept* するか、[intervene* with an alternative] か *request* かを判断する。
例えば、臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多いため、現実の意思決定支援は監視と予測に限られることが多い。
代わりに、そのような仲介者は、人間のミスと専門家のフィードバックの間の効率的なインターフェースを提供しながら、前者(純粋に規範的)と後者(純粋に記述的)のアプローチの間の慎重なバランスを取ることになる。
本研究ではまず,まず,ゼロから仲介者の方針を同時に学習し,評価する*オンライン意思決定仲介*のシーケンシャルな問題を,まず形式化します。各ラウンドにおいて,託宣に先んじることによってエラーのリスクを回避しますが,事前のペナルティを生じさせ,それ以外は隠された専門家の行動が新たなトレーニングデータポイントとして明らかになります。
第2に,一般化誤差の(将来の)改善に対して,損失項のトレードオフを求める解をモチベーション化し,提案する。
最後に,様々なデータセットに対する実験や感性を通じて,仲介者ポリシー,学習モデル,意思決定システム全体に対する評価基準の適用性に対して,一貫した利得を示す。
関連論文リスト
- Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。
人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。
実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文 参考訳(メタデータ) (2024-11-13T10:42:11Z) - Early stopping by correlating online indicators in neural networks [0.24578723416255746]
本稿では,学習者の学習において過度に適合する現象を識別する新しい手法を提案する。
提案手法は,オンライン指標の収集における時間的相関を利用したものである。
一つの基準に焦点をあてた従来のアプローチとは対照的に、独立性評価の助成を生かしている。
論文 参考訳(メタデータ) (2024-02-04T14:57:20Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Setting the Right Expectations: Algorithmic Recourse Over Time [16.930905275894183]
本稿では,連続的に変化する環境がアルゴリズムの会話に与える影響を研究するためのエージェント・ベース・シミュレーション・フレームワークを提案する。
この結果から,特定のパラメータ化の小さなセットだけが,時間とともにエージェントに信頼性のあるアルゴリズム的リコースをもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-13T14:04:15Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Dealing with Expert Bias in Collective Decision-Making [4.588028371034406]
本稿では,コンテキスト型マルチアームバンディット問題(CMAB)に基づく新たなアルゴリズムアプローチを提案する。
CMABにインスパイアされた新しいアプローチは、従来の適応アルゴリズムよりも高速に収束しながら、より高い最終性能を達成する。
論文 参考訳(メタデータ) (2021-06-25T10:17:37Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。