論文の概要: PIGDreamer: Privileged Information Guided World Models for Safe Partially Observable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.02159v1
- Date: Mon, 04 Aug 2025 08:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.239777
- Title: PIGDreamer: Privileged Information Guided World Models for Safe Partially Observable Reinforcement Learning
- Title(参考訳): PIGDreamer: 部分的に観察可能な強化学習のための世界モデル
- Authors: Dongchi Huang, Jiaqi Wang, Yang Li, Chunhe Xia, Tianle Zhang, Kaige Zhang,
- Abstract要約: エージェントの安全性と性能を高めるために特権情報を活用するモデルに基づく安全強化学習手法を提案する。
実験の結果,提案手法は既存の手法よりも安全性やタスク中心のパフォーマンスにおいて著しく優れていたことが確認された。
- 参考スコア(独自算出の注目度): 23.384621982394673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partial observability presents a significant challenge for safe reinforcement learning, as it impedes the identification of potential risks and rewards. Leveraging specific types of privileged information during training to mitigate the effects of partial observability has yielded notable empirical successes. In this paper, we propose Asymmetric Constrained Partially Observable Markov Decision Processes (ACPOMDPs) to theoretically examine the advantages of incorporating privileged information. Building upon ACPOMDPs, we propose the Privileged Information Guided Dreamer, a model-based safe reinforcement learning approach that leverages privileged information to enhance the agent's safety and performance through privileged representation alignment and an asymmetric actor-critic structure. Our empirical results demonstrate that our approach significantly outperforms existing methods in terms of safety and task-centric performance. Meanwhile, compared to alternative privileged model-based reinforcement learning methods, our approach exhibits superior performance and ease of training.
- Abstract(参考訳): 部分的可観測性は、潜在的なリスクと報酬の特定を妨げるため、安全な強化学習にとって重要な課題となる。
トレーニング中に特定の種類の特権情報を活用することで、部分的な可観測性の影響を緩和し、顕著な経験的成功をもたらした。
本稿では,非対称制約部分可観測マルコフ決定過程(ACPOMDP)を提案し,特権情報の導入の利点を理論的に検討する。
ACPOMDPをベースとしたPrivileged Information Guided Dreamerは、特権情報を活用するモデルベースの安全な強化学習手法であり、特権表現アライメントと非対称アクター・クリティカルな構造を通じてエージェントの安全性と性能を高める。
実験の結果,提案手法は既存の手法よりも安全性やタスク中心のパフォーマンスにおいて著しく優れていたことが確認された。
一方,モデルベース強化学習の代替手法と比較して,本手法は優れた性能と訓練の容易さを示す。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Personalized Exercise Recommendation with Semantically-Grounded Knowledge Tracing [54.44838681588145]
ExRecは、セマンティックグラウンドの知識トレースを備えたパーソナライズされたエクササイズレコメンデーションのためのフレームワークである。
ExRecは、新しい、目に見えない質問に頑健に一般化し、解釈可能な学習軌跡を生成することを示す。
論文 参考訳(メタデータ) (2025-07-15T07:54:04Z) - Guided Policy Optimization under Partial Observability [36.853129816484845]
部分的に観察可能な環境下での強化学習(RL)は、不確実性の下での学習の複雑さによって大きな課題を生じさせる。
本稿では,ガイドと学習者を協調訓練するフレームワークであるGPOを紹介する。
理論的には、この学習方式は直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服する。
論文 参考訳(メタデータ) (2025-05-21T12:01:08Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability [8.016667413960995]
我々は、RLエージェントの振る舞いを包括的に理解するために、ローカルとグローバルの両方の説明を統合するフレームワークであるxSRLを提案する。
xSRLはまた、敵攻撃を通じてポリシーの脆弱性を識別し、再トレーニングせずにエージェントのデバッグとパッチを行うツールを提供する。
我々の実験とユーザスタディは、RLシステムの安全性を高めるためのxSRLの有効性を実証し、現実のデプロイメントにおいてより信頼性と信頼性を高めた。
論文 参考訳(メタデータ) (2024-12-26T18:19:04Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks [23.907977144668838]
本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-28T22:33:38Z) - Assured Learning-enabled Autonomy: A Metacognitive Reinforcement
Learning Framework [4.427447378048202]
事前指定された報酬機能を持つ強化学習(rl)エージェントは、さまざまな状況で安全性を保証できない。
本稿では,メタ認知学習機能を備えたRLアルゴリズムを用いて,自律制御フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-23T14:01:35Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。