論文の概要: Reward Bound for Behavioral Guarantee of Model-based Planning Agents
- arxiv url: http://arxiv.org/abs/2402.13419v1
- Date: Tue, 20 Feb 2024 23:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:43:49.066056
- Title: Reward Bound for Behavioral Guarantee of Model-based Planning Agents
- Title(参考訳): モデルに基づく計画エージェントの行動保証のための報酬
- Authors: Zhiyu An, Xianzhong Ding, Wan Du
- Abstract要約: 我々は、モデルベースの計画エージェントが特定の将来のステップで目標状態に達することを保証することに重点を置いている。
例えば、その報酬がその上限以下であれば、そのような保証を得ることは不可能である。
- 参考スコア(独自算出の注目度): 3.326392645107372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen an emerging interest in the trustworthiness of machine
learning-based agents in the wild, especially in robotics, to provide safety
assurance for the industry. Obtaining behavioral guarantees for these agents
remains an important problem. In this work, we focus on guaranteeing a
model-based planning agent reaches a goal state within a specific future time
step. We show that there exists a lower bound for the reward at the goal state,
such that if the said reward is below that bound, it is impossible to obtain
such a guarantee. By extension, we show how to enforce preferences over
multiple goals.
- Abstract(参考訳): 近年、特にロボティクスの分野では、機械学習ベースのエージェントが業界に安全を提供するという信頼性への関心が高まっている。
これらのエージェントに対する行動保証を得ることは重要な問題である。
本研究では,モデルに基づく計画エージェントが,特定の将来のステップ内で目標状態に達することを保証することに焦点を当てる。
目標状態における報酬に対する下限が存在することを示し、当該報酬がその上限以下であれば、そのような保証を得ることは不可能であることを示す。
拡張によって、複数の目標に対して選好を強制する方法を示します。
関連論文リスト
- Incentive Non-Compatibility of Optimistic Rollups [0.0]
楽観的なロールアップのモデルを提示し、インセンティブがプレイヤーの期待する行動と必ずしも一致していないことを示唆する。
我々のモデルに照らされた潜在的な解決策について議論する。
論文 参考訳(メタデータ) (2023-12-04T00:42:04Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Action Anticipation with Goal Consistency [19.170733994203367]
我々は,将来起こるであろう行動を予測するために,高レベルの意図情報を活用することを提案する。
提案手法の有効性を実証し,提案手法が2つの大規模データセットに対して最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-26T20:04:23Z) - Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents [5.773269033551628]
マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
論文 参考訳(メタデータ) (2023-04-14T21:57:16Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Reward Tweaking: Maximizing the Total Reward While Planning for Short
Horizons [66.43848057122311]
Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する代理報酬関数を学習する。
報酬の調整は、短い地平線を計画しているにもかかわらず、エージェントがより長い水平方向のリターンに導くことを示す。
論文 参考訳(メタデータ) (2020-02-09T09:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。