論文の概要: RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization
- arxiv url: http://arxiv.org/abs/2510.02695v1
- Date: Fri, 03 Oct 2025 03:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.252397
- Title: RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization
- Title(参考訳): RAMAC:マルチモーダルリスク対応オフライン強化学習と行動規則化の役割
- Authors: Kai Fukazawa, Kunal Mundada, Iman Soltani,
- Abstract要約: 安全クリティカルな領域では、オフライン強化学習は魅力的な代替手段を提供するが、政策が破滅的な下尾リスクを伴わずに高いリターンをもたらす場合のみである。
本稿では,bfRisk-Aware Multimodal Actor-Critic (RAMAC)フレームワークを紹介する。
拡散およびフローマッチングアクターでRAMACをインスタンス化し、ほとんどのD4タスクで強いリターンを維持しながら、$mathrmaR_0.1$で一貫した利得を観察する。
- 参考スコア(独自算出の注目度): 1.593065406609169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In safety-critical domains where online data collection is infeasible, offline reinforcement learning (RL) offers an attractive alternative but only if policies deliver high returns without incurring catastrophic lower-tail risk. Prior work on risk-averse offline RL achieves safety at the cost of value conservatism and restricted policy classes, whereas expressive policies are only used in risk-neutral settings. Here, we address this gap by introducing the \textbf{Risk-Aware Multimodal Actor-Critic (RAMAC)} framework, which couples an \emph{expressive generative actor} with a distributional critic. The RAMAC differentiates composite objective combining distributional risk and BC loss through the generative path, achieving risk-sensitive learning in complex multimodal scenarios. We instantiate RAMAC with diffusion and flow-matching actors and observe consistent gains in $\mathrm{CVaR}_{0.1}$ while maintaining strong returns on most Stochastic-D4RL tasks. Code: https://github.com/KaiFukazawa/RAMAC.git
- Abstract(参考訳): オンラインデータ収集が不可能な安全クリティカルな領域では、オフライン強化学習(RL)は魅力的な代替手段を提供するが、政策が破滅的な低テールリスクを伴わずに高いリターンを提供する場合のみである。
リスク逆オフラインRLの以前の研究は、価値保守主義と制限されたポリシークラスを犠牲にして安全性を達成するが、表現的ポリシーはリスク中立的な設定でのみ使用される。
ここでは,このギャップに対処するために,分布批評家と \emph{presentive generative actor} を結合した \textbf{Risk-Aware Multimodal Actor-Critic (RAMAC) フレームワークを導入する。
RAMACは、複雑なマルチモーダルシナリオにおいてリスクに敏感な学習を実現するため、分散リスクとBC損失を組み合わせた複合目的を区別する。
拡散およびフローマッチングアクターでRAMACをインスタンス化し、Stochastic-D4RLタスクの強いリターンを維持しながら、$\mathrm{CVaR}_{0.1}$で一貫した利得を観測する。
コード:https://github.com/KaiFukazawa/RAMAC.git
関連論文リスト
- Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。
既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。
本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-08T00:22:00Z) - Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk [16.176812250762666]
TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
論文 参考訳(メタデータ) (2023-12-01T04:29:19Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement
Learning [8.089234432461804]
オフライン強化学習(RL)アルゴリズムは、追加のオンラインデータ収集を行うことなく、所定の固定トレーニングデータセットを使用して意思決定を学習する。
この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。
オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:42:24Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Conservative Offline Distributional Reinforcement Learning [34.95001490294207]
我々は,リスクニュートラルドメインとリスクアバースドメインの両方に対して,保守的オフライン配信アクタ批判(CODAC)を提案する。
CODAC は分布 RL をオフライン設定に適応させ、予測された分布の量子化をアウト・オブ・ディストリビューション・アクション(out-of-distribution action)として罰する。
実験では、CODACはリスク中立エージェントから純粋に収集されたオフラインデータを用いて、リスク回避ポリシーをうまく学習する。
論文 参考訳(メタデータ) (2021-07-12T15:38:06Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。