論文の概要: Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch
- arxiv url: http://arxiv.org/abs/2404.08791v2
- Date: Thu, 31 Oct 2024 02:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:50.904106
- Title: Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch
- Title(参考訳): 期待アライメント:予測ミスマッチの存在下でのリワードミス種別処理
- Authors: Malek Mechergui, Sarath Sreedharan,
- Abstract要約: 我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.03141646688652
- License:
- Abstract: Detecting and handling misspecified objectives, such as reward functions, has been widely recognized as one of the central challenges within the domain of Artificial Intelligence (AI) safety research. However, even with the recognition of the importance of this problem, we are unaware of any works that attempt to provide a clear definition for what constitutes (a) misspecified objectives and (b) successfully resolving such misspecifications. In this work, we use the theory of mind, i.e., the human user's beliefs about the AI agent, as a basis to develop a formal explanatory framework called Expectation Alignment (EAL) to understand the objective misspecification and its causes. Our EAL framework not only acts as an explanatory framework for existing works but also provides us with concrete insights into the limitations of existing methods to handle reward misspecification and novel solution strategies. We use these insights to propose a new interactive algorithm that uses the specified reward to infer potential user expectations about the system behavior. We show how one can efficiently implement this algorithm by mapping the inference problem into linear programs. We evaluate our method on a set of standard Markov Decision Process (MDP) benchmarks.
- Abstract(参考訳): 報酬関数などの不特定目的の検出と対処は、人工知能(AI)の安全性研究における中心的な課題の1つとして広く認識されている。
しかし、この問題の重要性が認識されても、我々は何を構成するのかを明確に定義しようとする作品に気づいていない。
a)不特定目的,不特定目的
(b)そのような誤用の解決に成功。
本研究は,人間のAIエージェントに対する信念である心の理論を用いて,予測整合(EAL)と呼ばれる形式的説明的枠組みを構築し,目的的不特定性とその原因を理解する。
我々のEALフレームワークは、既存の作業の解説フレームワークとして機能するだけでなく、報酬のミススペクテーションや新しいソリューション戦略を扱う既存の方法の限界に関する具体的な洞察も提供してくれます。
これらの知見を用いて,システム動作に対する潜在的なユーザ期待を推測するために,特定報酬を用いた新たな対話型アルゴリズムを提案する。
本稿では,推論問題を線形プログラムにマッピングすることで,このアルゴリズムを効率的に実装する方法を示す。
我々は,標準的なマルコフ決定プロセス(MDP)ベンチマークを用いて提案手法の評価を行った。
関連論文リスト
- Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Interpretable Concept-Based Memory Reasoning [12.562474638728194]
コンセプトベースのメモリリゾナー(CMR)は、人間に理解でき、検証可能なタスク予測プロセスを提供するために設計された新しいCBMである。
CMRは最先端のCBMと同等の精度で解釈可能性のトレードオフを達成し、基礎的な真実と整合した論理規則を発見し、規則の介入を可能にし、事前デプロイ検証を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:32:48Z) - Goal Recognition via Linear Programming [14.129476759815251]
計画としての目標認識に関する研究は、計画課題のモデル、観察、計画手法を用いた目標の推論を含む。
本稿では,Operator-Countingフレームワークに依存する新しい認識手法を設計する。
我々は、新しいIP/LP制約が、部分的かつノイズの多い観測可能性の下で、ゴールの認識をいかに改善できるかを示す。
論文 参考訳(メタデータ) (2024-04-11T17:34:35Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Safe Explicable Planning [3.3869539907606603]
安全計画(SEP:Safe Explicable Planning)を提案する。
提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
論文 参考訳(メタデータ) (2023-04-04T21:49:02Z) - Goal Alignment: A Human-Aware Account of Value Alignment Problem [16.660807368368758]
バリューアライメント問題は、AIエージェントの指定された目的がそのユーザの真の目的と一致しないシナリオで発生する。
ミスアライメントの根本的な原因は、エージェントの行動とエージェントが特定の目的のために生成する振る舞いに対する人間の期待に固有の非対称性である。
本稿では,価値アライメントに関わるいくつかの中心的課題に焦点をあてた,ゴールアライメント(ゴールアライメント)という,バリューアライメント問題の新たな定式化を提案する。
論文 参考訳(メタデータ) (2023-02-02T01:18:57Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。