Fugu-MT 論文翻訳(概要): Reward Bound for Behavioral Guarantee of Model-based Planning Agents

論文の概要: Reward Bound for Behavioral Guarantee of Model-based Planning Agents

arxiv url: http://arxiv.org/abs/2402.13419v1
Date: Tue, 20 Feb 2024 23:17:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 17:43:49.066056
Title: Reward Bound for Behavioral Guarantee of Model-based Planning Agents
Title（参考訳）: モデルに基づく計画エージェントの行動保証のための報酬
Authors: Zhiyu An, Xianzhong Ding, Wan Du
Abstract要約: 我々は、モデルベースの計画エージェントが特定の将来のステップで目標状態に達することを保証することに重点を置いている。例えば、その報酬がその上限以下であれば、そのような保証を得ることは不可能である。
参考スコア（独自算出の注目度）: 3.326392645107372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have seen an emerging interest in the trustworthiness of machine learning-based agents in the wild, especially in robotics, to provide safety assurance for the industry. Obtaining behavioral guarantees for these agents remains an important problem. In this work, we focus on guaranteeing a model-based planning agent reaches a goal state within a specific future time step. We show that there exists a lower bound for the reward at the goal state, such that if the said reward is below that bound, it is impossible to obtain such a guarantee. By extension, we show how to enforce preferences over multiple goals.
Abstract（参考訳）: 近年、特にロボティクスの分野では、機械学習ベースのエージェントが業界に安全を提供するという信頼性への関心が高まっている。これらのエージェントに対する行動保証を得ることは重要な問題である。本研究では,モデルに基づく計画エージェントが,特定の将来のステップ内で目標状態に達することを保証することに焦点を当てる。目標状態における報酬に対する下限が存在することを示し、当該報酬がその上限以下であれば、そのような保証を得ることは不可能であることを示す。拡張によって、複数の目標に対して選好を強制する方法を示します。

関連論文リスト

Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文参考訳（メタデータ） (2025-06-06T18:05:45Z)
Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文参考訳（メタデータ） (2025-05-29T19:47:50Z)
Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL [14.767273209148545]
CVAEに基づくペシミズム(FASP)を用いたオフラインセーフ強化学習フレームワークを提案する。我々はハミルトン・ヤコビ(H-J)リーチビリティ解析を用いて信頼性の高い安全ラベルを生成する。また,報酬とコストのQ値の推定にも悲観的推定法を用いる。
論文参考訳（メタデータ） (2025-05-13T02:32:49Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Steering No-Regret Agents in MFGs under Model Uncertainty [19.845081182511713]
本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
論文参考訳（メタデータ） (2025-03-12T12:02:02Z)
Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳（メタデータ） (2025-03-09T17:54:33Z)
Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,既存の画像分類能力向上のために,事前学習された視覚言語モデル(別名CLIPモデル)の開発方法について検討する。自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文参考訳（メタデータ） (2024-10-04T22:34:58Z)
Non-maximizing policies that fulfill multi-criterion aspirations in expectation [0.7874708385247353]
動的プログラミングおよび強化学習において、エージェントの逐次決定のためのポリシーは通常、目標をスカラー報酬関数として表現することによって決定される。複数の異なる評価指標を持つ有限非巡回決定マルコフプロセスを考えるが、これは必ずしもユーザが最大化したい量を表すものではない。提案アルゴリズムは,本課題を簡易性を用いて実現可能集合を近似し,その実現可能性を維持しつつ,前もって願望を伝達することによって達成することを保証する。
論文参考訳（メタデータ） (2024-08-08T11:41:04Z)
Preserving the Privacy of Reward Functions in MDPs through Deception [13.664014596337037]
多くの物理的およびサイバーセキュリティドメインにおいて、決定が監視可能である場合、シーケンシャルな意思決定エージェントの好み(または報酬)のプライバシを保存することが不可欠である。本稿では,MDPにおける行動の連続を計画する際のプライバシ保護について論じる。
論文参考訳（メタデータ） (2024-07-13T09:03:22Z)
Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。 ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文参考訳（メタデータ） (2024-06-20T15:12:27Z)
TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文参考訳（メタデータ） (2024-02-02T17:26:23Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)
Model-Free Reinforcement Learning for Symbolic Automata-encoded Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。本稿では,記号オートマトンを用いた形式仕様を提案する。
論文参考訳（メタデータ） (2022-02-04T21:54:36Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)
Reward Tweaking: Maximizing the Total Reward While Planning for Short Horizons [66.43848057122311]
Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する代理報酬関数を学習する。報酬の調整は、短い地平線を計画しているにもかかわらず、エージェントがより長い水平方向のリターンに導くことを示す。
論文参考訳（メタデータ） (2020-02-09T09:50:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。