論文の概要: Informed Asymmetric Actor-Critic: Leveraging Privileged Signals Beyond Full-State Access
- arxiv url: http://arxiv.org/abs/2509.26000v1
- Date: Tue, 30 Sep 2025 09:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.491479
- Title: Informed Asymmetric Actor-Critic: Leveraging Privileged Signals Beyond Full-State Access
- Title(参考訳): Informed Asymmetric Actor-Critic: 完全状態アクセスを超えた原始信号の活用
- Authors: Daniel Ebi, Gaspard Lambrechts, Damien Ernst, Klemens Böhm,
- Abstract要約: 部分的に観察可能な環境で強化学習を行うには、ノイズや不完全な観察から不確実性の下でエージェントが行動する必要がある。
既存のアプローチは通常、トレーニング中にフルステートアクセスを前提とします。
そこで我々は,任意の特権信号に対する批評家の条件付けを可能にする,情報非対称的アクター批判という新しいアクター批判フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.414257584656551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning in partially observable environments requires agents to act under uncertainty from noisy, incomplete observations. Asymmetric actor-critic methods leverage privileged information during training to improve learning under these conditions. However, existing approaches typically assume full-state access during training. In this work, we challenge this assumption by proposing a novel actor-critic framework, called informed asymmetric actor-critic, that enables conditioning the critic on arbitrary privileged signals without requiring access to the full state. We show that policy gradients remain unbiased under this formulation, extending the theoretical foundation of asymmetric methods to the more general case of privileged partial information. To quantify the impact of such signals, we propose informativeness measures based on kernel methods and return prediction error, providing practical tools for evaluating training-time signals. We validate our approach empirically on benchmark navigation tasks and synthetic partially observable environments, showing that our informed asymmetric method improves learning efficiency and value estimation when informative privileged inputs are available. Our findings challenge the necessity of full-state access and open new directions for designing asymmetric reinforcement learning methods that are both practical and theoretically sound.
- Abstract(参考訳): 部分的に観察可能な環境で強化学習を行うには、ノイズや不完全な観察から不確実性の下でエージェントが行動する必要がある。
非対称アクター批判法は、これらの条件下での学習を改善するために訓練中に特権情報を活用する。
しかし、既存のアプローチは通常、トレーニング中にフルステートアクセスを前提とします。
本研究では,アクター・アクター・アクター・アクター・アクター・アクター・アクターという,アクター・アクター・アクター・アクター・アクター・アクターの新たな枠組みを提案することで,この仮定に挑戦する。
この定式化の下では、政策勾配は非バイアスのままであり、非対称な手法の理論的基礎は特権的部分情報のより一般的な場合にまで拡張されている。
このような信号の影響を定量化するために,カーネル法と戻り予測誤差に基づく情報伝達度尺度を提案し,訓練時間信号を評価するための実用的なツールを提供する。
提案手法は,シミュレーションナビゲーションタスクと合成部分観測可能な環境において実証的に検証し,情報的特権入力が利用可能である場合の学習効率と価値推定を改善することを示す。
本研究は, 実用的かつ理論的に健全な非対称強化学習手法を設計する上で, フルステートアクセスの必要性と, 新たな方向性の必要性に挑戦するものである。
関連論文リスト
- Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文 参考訳(メタデータ) (2025-04-23T16:54:35Z) - A Theoretical Justification for Asymmetric Actor-Critic Algorithms [3.946432657561182]
線形関数近似器を用いた非対称アクター批判アルゴリズムの正当性を提案する。
結果として生じる有限時間境界は、非対称な批評家がエージェント状態のエイリアスから生じる誤り項を排除していることを示している。
論文 参考訳(メタデータ) (2025-01-31T13:20:05Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning [17.48572546628464]
非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することで、そのような情報を利用する。
我々は、状態に基づく批評家を用いた非対称アクター批判法の理論を検証し、共通の変種の有効性を損なう根本的な問題を明らかにする。
理論的に音を残しながら状態情報を活用できる非バイアス非対称アクター・クリティックな変種を提案する。
論文 参考訳(メタデータ) (2021-05-25T05:18:44Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。