論文の概要: Intrinsic Vicarious Conditioning for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.12224v1
- Date: Tue, 12 May 2026 15:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.942498
- Title: Intrinsic Vicarious Conditioning for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための内在的ビカラス条件付け
- Authors: Rodney A Sanchez, Ferat Sahin, Alex Ororbia, Jamison Heard,
- Abstract要約: 直接条件付けは、エージェントが環境や他者からどのように学習するかを制限することによって、エージェントの能力を制限する。
オフ・ポリティクスや学習・バイ・サンプル・メソッドはデモ参加者の表現から学ぶことができるが、エージェントのポリシーや報酬関数にアクセスする必要がある。
本研究は,本質的な報酬機構としてビカリアス条件付けを導入することで,この直接的なサンプリング制限を克服する。
- 参考スコア(独自算出の注目度): 1.5466093929120726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in reinforcement learning have produced a variety of complex and useful intrinsic driving forces; crucially, these drivers operate under a direct conditioning paradigm. This form of conditioning limits our agents' capacity by restricting how they learn from the environment as well as from others. Off-policy or learn-by-example methods can learn from demonstrators' representations, but they require access to the demonstrating agent's policies or their reward functions. Our work overcomes this direct sampling limitation by introducing vicarious conditioning as an intrinsic reward mechanism. We draw from psychological and biological literature to provide a foundation for vicarious conditioning and use memory-based methods to implement its four steps: attention, retention, reproduction, and reinforcement. Crucially, our vicarious conditioning paradigms support low-shot learning and do not require the demonstrator agent's policy nor its reward functions. We evaluate our approach in the MiniWorld Sidewalk environment, one of the few public environments that features a non-descriptive terminal condition (no reward provided upon agent death), and extend it to Box2D's CarRacing environment. Our results across both environments demonstrate that vicarious conditioning enables longer episode lengths by discouraging the agent from non-descriptive terminal conditions and guiding the agent toward desirable states. Overall, this work emulates a cognitively-plausible learning paradigm better suited to problems such as single-life learning or continual learning.
- Abstract(参考訳): 強化学習の進歩は、様々な複雑で有用な本質的な駆動力を生み出してきた。
このような条件付けは、エージェントが環境や他者からどのように学習するかを制限することで、エージェントの能力を制限する。
オフ・ポリティクスや学習・バイ・サンプル・メソッドはデモ参加者の表現から学ぶことができるが、エージェントのポリシーや報酬関数にアクセスする必要がある。
本研究は,本質的な報酬機構としてビカリアス条件付けを導入することで,この直接的なサンプリング制限を克服する。
我々は、心的・生物学的文献から、鮮明な条件づけの基礎を提供し、メモリベースの方法を用いて、注意、保留、再生、強化の4つのステップを実践する。
重要なことは、我々の鮮明な条件付けパラダイムは低ショット学習をサポートし、実証者エージェントのポリシーや報酬機能を必要としない。
筆者らはMiniWorld Sidewalk環境において,非記述型端末条件を特徴とする数少ない公共環境の一つであり,Box2DのCarRacing環境に拡張した。
両環境にまたがる結果から, エージェントを非記述的端末条件から遠ざけ, エージェントを望ましい状態へ誘導することにより, 鮮明な条件がエピソードの長さを延長できることが示唆された。
全体として、この研究は、単生学習や連続学習のような問題により適した認知的に賞賛できる学習パラダイムをエミュレートしている。
関連論文リスト
- Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Avoiding Death through Fear Intrinsic Conditioning [48.07595141865156]
我々は、初期の扁桃体発達にインスパイアされた本質的な報酬関数を導入し、この本質的な報酬関数を、新しいメモリ拡張ニューラルネットワークアーキテクチャにより生成する。
この本質的なモチベーションが終末状態の探索を阻害し,動物に観察される恐怖条件と同様の回避行動をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T19:24:51Z) - Goal-Conditioned Reinforcement Learning in the Presence of an Adversary [0.0]
強化学習は、ここ数年で現実世界の文脈で応用が増えている。
これを戦うための一般的なアプローチは、敵の存在下でエージェントを訓練することである。
敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。
本稿では,対戦相手に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを紹介する。
論文 参考訳(メタデータ) (2022-11-13T15:40:01Z) - Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。