論文の概要: Explanation through Reward Model Reconciliation using POMDP Tree Search
- arxiv url: http://arxiv.org/abs/2305.00931v1
- Date: Mon, 1 May 2023 16:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:45:03.390028
- Title: Explanation through Reward Model Reconciliation using POMDP Tree Search
- Title(参考訳): POMDP木探索を用いた逆モデル再構成による説明
- Authors: Benjamin D. Kraske, Anshu Saksena, Anna L. Buczak, Zachary N. Sunberg
- Abstract要約: この研究は、アルゴリズムがオンライン部分的に観測可能なマルコフ決定(POMDP)計画に使用する報酬モデルと、人間のユーザによって仮定される暗黙の報酬モデルとの相違を解決しようとするものである。
アルゴリズムとユーザによる決定の違いであるアクションの相違を利用して、報酬関数の重み付けで表されるユーザの目的を推定する。
- 参考スコア(独自算出の注目度): 5.0364535249176505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As artificial intelligence (AI) algorithms are increasingly used in
mission-critical applications, promoting user-trust of these systems will be
essential to their success. Ensuring users understand the models over which
algorithms reason promotes user trust. This work seeks to reconcile differences
between the reward model that an algorithm uses for online partially observable
Markov decision (POMDP) planning and the implicit reward model assumed by a
human user. Action discrepancies, differences in decisions made by an algorithm
and user, are leveraged to estimate a user's objectives as expressed in
weightings of a reward function.
- Abstract(参考訳): 人工知能(AI)アルゴリズムは、ミッションクリティカルなアプリケーションでますます使われているため、これらのシステムのユーザ信頼を促進することが彼らの成功に不可欠である。
アルゴリズムの理由がユーザの信頼を促進するモデルを理解すること。
この研究は、アルゴリズムがオンライン部分的に観測可能なマルコフ決定(POMDP)計画に使用する報酬モデルと、人間のユーザが仮定する暗黙の報酬モデルとの差異を解明することを目的とする。
アルゴリズムとユーザによる決定の違いであるアクションの相違を利用して、報酬関数の重み付けで表されるユーザの目的を推定する。
関連論文リスト
- Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Assisting Human Decisions in Document Matching [52.79491990823573]
我々は,意思決定者のパフォーマンスを向上する支援情報の種類を評価するためのプロキシマッチングタスクを考案した。
ブラックボックスモデルによる説明を提供することで,マッチング作業におけるユーザの精度が低下することが判明した。
一方,タスク固有のデシラタに密接に対応するように設計されたカスタムメソッドは,ユーザのパフォーマンス向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-02-16T17:45:20Z) - Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。
我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。
4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文 参考訳(メタデータ) (2022-02-05T09:24:13Z) - VisRuler: Visual Analytics for Extracting Decision Rules from Bagged and
Boosted Decision Trees [5.653716495767272]
バッグングとブースティングは、機械学習(ML)において、多くの個別決定木を生成する2つの一般的なアンサンブル手法である。
本稿では,このようなMLモデルから決定を抽出するユーザを支援する視覚分析ツールを提案する。
論文 参考訳(メタデータ) (2021-12-01T08:01:02Z) - Detecting and Quantifying Malicious Activity with Simulation-based
Inference [61.9008166652035]
本稿では,レコメンデーションアルゴリズムと相互作用する正規および悪意のあるユーザのモデルを用いて,悪意のあるユーザ識別実験を行う。
本稿では,ユーザやグループの影響を定量化するためのシミュレーションに基づく新しい尺度を提案する。
論文 参考訳(メタデータ) (2021-10-06T03:39:24Z) - Model Learning with Personalized Interpretability Estimation (ML-PIE) [2.862606936691229]
ハイステークアプリケーションは、AI生成モデルを解釈可能にする必要がある。
解釈可能なモデルの合成のための現在のアルゴリズムは、目的や正規化項に依存する。
本稿では,ユーザ向けにカスタマイズされたモデルの合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T09:47:48Z) - On Variational Inference for User Modeling in Attribute-Driven
Collaborative Filtering [10.64460581091531]
本稿では,因果推論を用いて時間的文脈からユーザの属性親和性を学習する手法を提案する。
この目的を確率論的機械学習問題として定式化し、モデルパラメータを推定するために変分推論に基づく手法を適用する。
論文 参考訳(メタデータ) (2020-12-02T22:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。