論文の概要: Explanation through Reward Model Reconciliation using POMDP Tree Search
- arxiv url: http://arxiv.org/abs/2305.00931v1
- Date: Mon, 1 May 2023 16:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:45:03.390028
- Title: Explanation through Reward Model Reconciliation using POMDP Tree Search
- Title(参考訳): POMDP木探索を用いた逆モデル再構成による説明
- Authors: Benjamin D. Kraske, Anshu Saksena, Anna L. Buczak, Zachary N. Sunberg
- Abstract要約: この研究は、アルゴリズムがオンライン部分的に観測可能なマルコフ決定(POMDP)計画に使用する報酬モデルと、人間のユーザによって仮定される暗黙の報酬モデルとの相違を解決しようとするものである。
アルゴリズムとユーザによる決定の違いであるアクションの相違を利用して、報酬関数の重み付けで表されるユーザの目的を推定する。
- 参考スコア(独自算出の注目度): 5.0364535249176505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As artificial intelligence (AI) algorithms are increasingly used in
mission-critical applications, promoting user-trust of these systems will be
essential to their success. Ensuring users understand the models over which
algorithms reason promotes user trust. This work seeks to reconcile differences
between the reward model that an algorithm uses for online partially observable
Markov decision (POMDP) planning and the implicit reward model assumed by a
human user. Action discrepancies, differences in decisions made by an algorithm
and user, are leveraged to estimate a user's objectives as expressed in
weightings of a reward function.
- Abstract(参考訳): 人工知能(AI)アルゴリズムは、ミッションクリティカルなアプリケーションでますます使われているため、これらのシステムのユーザ信頼を促進することが彼らの成功に不可欠である。
アルゴリズムの理由がユーザの信頼を促進するモデルを理解すること。
この研究は、アルゴリズムがオンライン部分的に観測可能なマルコフ決定(POMDP)計画に使用する報酬モデルと、人間のユーザが仮定する暗黙の報酬モデルとの差異を解明することを目的とする。
アルゴリズムとユーザによる決定の違いであるアクションの相違を利用して、報酬関数の重み付けで表されるユーザの目的を推定する。
関連論文リスト
- Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。
人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。
実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文 参考訳(メタデータ) (2024-11-13T10:42:11Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文 参考訳(メタデータ) (2024-04-03T20:38:22Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Assisting Human Decisions in Document Matching [52.79491990823573]
我々は,意思決定者のパフォーマンスを向上する支援情報の種類を評価するためのプロキシマッチングタスクを考案した。
ブラックボックスモデルによる説明を提供することで,マッチング作業におけるユーザの精度が低下することが判明した。
一方,タスク固有のデシラタに密接に対応するように設計されたカスタムメソッドは,ユーザのパフォーマンス向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-02-16T17:45:20Z) - VisRuler: Visual Analytics for Extracting Decision Rules from Bagged and Boosted Decision Trees [3.5229503563299915]
バッグングとブースティングは、機械学習(ML)において、多くの個別決定木を生成する2つの一般的なアンサンブル手法である。
本稿では,このようなMLモデルから決定を抽出するユーザを支援する視覚分析ツールを提案する。
論文 参考訳(メタデータ) (2021-12-01T08:01:02Z) - Detecting and Quantifying Malicious Activity with Simulation-based
Inference [61.9008166652035]
本稿では,レコメンデーションアルゴリズムと相互作用する正規および悪意のあるユーザのモデルを用いて,悪意のあるユーザ識別実験を行う。
本稿では,ユーザやグループの影響を定量化するためのシミュレーションに基づく新しい尺度を提案する。
論文 参考訳(メタデータ) (2021-10-06T03:39:24Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。