Fugu-MT 論文翻訳(概要): Robust Reward Design for Markov Decision Processes

論文の概要: Robust Reward Design for Markov Decision Processes

arxiv url: http://arxiv.org/abs/2406.05086v1
Date: Fri, 7 Jun 2024 17:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 13:12:42.507017
Title: Robust Reward Design for Markov Decision Processes
Title（参考訳）: マルコフ決定過程のロバスト・リワード設計
Authors: Shuo Wu, Haoxiang Ma, Jie Fu, Shuo Han,
Abstract要約: 報酬設計に対する現在のアプローチは、フォロワーが報酬修正にどう反応するかの正確なモデルに依存しています。従者モデリングにおける不確実性に対する堅牢性を提供するソリューションを提案する。
参考スコア（独自算出の注目度）: 25.08806070378985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The problem of reward design examines the interaction between a leader and a follower, where the leader aims to shape the follower's behavior to maximize the leader's payoff by modifying the follower's reward function. Current approaches to reward design rely on an accurate model of how the follower responds to reward modifications, which can be sensitive to modeling inaccuracies. To address this issue of sensitivity, we present a solution that offers robustness against uncertainties in modeling the follower, including 1) how the follower breaks ties in the presence of nonunique best responses, 2) inexact knowledge of how the follower perceives reward modifications, and 3) bounded rationality of the follower. Our robust solution is guaranteed to exist under mild conditions and can be obtained numerically by solving a mixed-integer linear program. Numerical experiments on multiple test cases demonstrate that our solution improves robustness compared to the standard approach without incurring significant additional computing costs.
Abstract（参考訳）: 報酬設計の問題は、リーダーとフォロワーの相互作用を調べ、リーダーは、フォロワーの報酬機能を変更することで、リーダーの報酬を最大化するために、フォロワーの行動を形成することを目的としている。報酬設計に対する現在のアプローチは、フォロワーが報酬修正にどう反応するかの正確なモデルに依存しており、それは不正確なモデリングに敏感である。この感度の問題に対処するため、従者のモデリングにおける不確実性に対して堅牢性を提供するソリューションを提案する。 1) フォロワーは、不均一なベストレスポンスの存在において、どのように関係を断ち切るか。 2 追随者が報酬の改定をどう知覚するかについての不正確な知識及び 3) 従者の有界合理性我々の堅牢な解は、穏やかな条件下で存在することが保証されており、混合整数線形プログラムを解くことで数値的に得ることができる。複数のテストケースの数値実験により、我々の解法は、計算コストの大幅な増大を伴わずに、標準手法に比べて堅牢性を向上することを示した。

関連論文リスト

Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback [23.48582504679409]
最先端の政策モデルでさえ不安定な把握行動を示すことが多い。視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを紹介する。
論文参考訳（メタデータ） (2025-03-19T09:25:32Z)
Uncertainty-Aware Step-wise Verification with Generative Reward Models [42.17917357636397]
生成報酬モデルを用いたステップワイド検証の信頼性を高めるために,不確実性定量化(UQ)を活用することを提案する。ステップワイド検証におけるPRMの不確実性を定量化するための既存手法よりも優れた新しいUQ手法であるCoT Entropyを導入する。
論文参考訳（メタデータ） (2025-02-16T20:00:56Z)
Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題優雅にアマルガメートは、最小化とBAIを後悔している。エージェントの目標は、所定の信頼度で最高の腕を特定することである。二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文参考訳（メタデータ） (2024-09-27T16:46:02Z)
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文参考訳（メタデータ） (2024-06-04T14:55:43Z)
Scalarisation-based risk concepts for robust multi-objective optimisation [4.12484724941528]
この問題の多目的事例について検討する。我々は、ロバストな多目的アルゴリズムの大多数が、ロバスト化とスカラー化という2つの重要な操作に依存していることを確認した。これらの操作は必ずしも可換であるとは限らないので、それらが実行される順序は結果の解に影響を及ぼす。
論文参考訳（メタデータ） (2024-05-16T16:11:00Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文参考訳（メタデータ） (2023-07-26T10:24:17Z)
On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文参考訳（メタデータ） (2022-06-27T06:20:37Z)
Learning from an Exploring Demonstrator: Optimal Reward Estimation for Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文参考訳（メタデータ） (2021-06-28T17:37:49Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文参考訳（メタデータ） (2021-06-07T10:35:52Z)
Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文参考訳（メタデータ） (2021-04-20T18:16:21Z)
Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は直立位置での力学系の教師なし安定化を可能にする本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文参考訳（メタデータ） (2020-07-14T21:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。