Fugu-MT 論文翻訳(概要): Regret Bounds for Risk-Sensitive Reinforcement Learning

論文の概要: Regret Bounds for Risk-Sensitive Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.05650v1
Date: Tue, 11 Oct 2022 17:49:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 16:55:19.553831
Title: Regret Bounds for Risk-Sensitive Reinforcement Learning
Title（参考訳）: リスク感性強化学習のためのレグレト境界
Authors: O. Bastani, Y. J. Ma, E. Shen, W. Xu
Abstract要約: 本研究は,CVaR目標を含むリスク感応目標の一般クラスにおいて,強化学習に対する最初の後悔の限界を証明した。我々の理論はCVaR目標の新たな特徴と,新しい楽観的なMDP構築に基づいている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In safety-critical applications of reinforcement learning such as healthcare and robotics, it is often desirable to optimize risk-sensitive objectives that account for tail outcomes rather than expected reward. We prove the first regret bounds for reinforcement learning under a general class of risk-sensitive objectives including the popular CVaR objective. Our theory is based on a novel characterization of the CVaR objective as well as a novel optimistic MDP construction.
Abstract（参考訳）: 医療やロボティクスといった強化学習の安全性クリティカルな応用では、期待された報酬よりも、尾行の結果を考慮したリスクに敏感な目標を最適化することが望ましい。本研究は,CVaR目標を含むリスク感応目標の一般クラスにおいて,強化学習に対する最初の後悔の限界を証明した。我々の理論はCVaR目標の新たな特徴と,新しい楽観的なMDP構築に基づいている。

関連論文リスト

Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文参考訳（メタデータ） (2026-01-31T10:02:43Z)
GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards [13.369116707284121]
Divergence-in-Behavior Attack (DIBA)は、Reinforcement Learning with Verifiable Rewards用に特別に設計された最初のメンバーシップ推論フレームワークである。以上の結果から,DIBAは既存のベースラインを大きく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。これは、RLVRにおけるプライバシーの脆弱性を体系的に分析する最初の研究であり、データ露出のトレーニングが行動トレースを通じて確実に推測できることを明らかにする。
論文参考訳（メタデータ） (2025-11-18T01:51:34Z)
The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文参考訳（メタデータ） (2025-05-24T08:19:25Z)
Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳（メタデータ） (2025-02-17T15:28:40Z)
RA-PbRL: Provably Efficient Risk-Aware Preference-Based Reinforcement Learning [7.407106653769627]
本稿では,ネストと静的の両方の目的を最適化するアルゴリズムであるリスク・アウェアPbRLを紹介する。また, 後悔の上界を理論的に解析し, エピソード数に準線形であることを示すとともに, 経験的結果を示す。
論文参考訳（メタデータ） (2024-10-31T02:25:43Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文参考訳（メタデータ） (2023-07-02T11:47:21Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Robust Reinforcement Learning with Distributional Risk-averse formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文参考訳（メタデータ） (2022-06-14T13:33:58Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)
Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文参考訳（メタデータ） (2019-11-20T03:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。