Fugu-MT 論文翻訳(概要): Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning

論文の概要: Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.05209v2
Date: Wed, 20 Dec 2023 10:51:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 19:15:45.499114
Title: Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習における報酬機械抽象化の文脈的事前計画
Authors: Guy Azran, Mohamad H. Danesh, Stefano V. Albrecht, Sarah Keren
Abstract要約: 深層強化学習(DRL)エージェントは、訓練されたタスクに過度に適合し、小さな環境変化に適応できない傾向にある。我々は、報酬機(RM)を用いた現在の課題を表現するための新しい手法を提案する。提案手法は, エージェントに対して, 現在の抽象状態からの最適遷移の記号表現を提供し, それらの遷移を達成するための報酬を与える。
参考スコア（独自算出の注目度）: 20.272179949107514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies show that deep reinforcement learning (DRL) agents tend to overfit to the task on which they were trained and fail to adapt to minor environment changes. To expedite learning when transferring to unseen tasks, we propose a novel approach to representing the current task using reward machines (RMs), state machine abstractions that induce subtasks based on the current task's rewards and dynamics. Our method provides agents with symbolic representations of optimal transitions from their current abstract state and rewards them for achieving these transitions. These representations are shared across tasks, allowing agents to exploit knowledge of previously encountered symbols and transitions, thus enhancing transfer. Empirical results show that our representations improve sample efficiency and few-shot transfer in a variety of domains.
Abstract（参考訳）: 近年の研究では、深層強化学習(DRL)エージェントは、訓練されたタスクに過度に適合し、小さな環境変化に適応できない傾向が示されている。未知のタスクに移行する際の学習の迅速化を目的として,現在のタスクを,現在のタスクの報酬やダイナミクスに基づいてサブタスクを誘導する状態マシン抽象化を用いて表現する手法を提案する。本手法は,現在の抽象状態からの最適遷移の象徴表現をエージェントに与え,それらの遷移を達成するための報酬を与える。これらの表現はタスク間で共有され、エージェントは以前に遭遇したシンボルや遷移の知識を活用できるため、転送が促進される。実験結果から, 種々の領域におけるサンプル効率と少数ショット転送の改善が示された。

関連論文リスト

FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文参考訳（メタデータ） (2025-07-27T22:21:53Z)
Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T15:47:22Z)
State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文参考訳（メタデータ） (2023-09-21T11:41:22Z)
Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-02-19T15:47:24Z)
Investigating the role of model-based learning in exploration and transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-02-08T11:49:58Z)
Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文参考訳（メタデータ） (2022-05-29T04:31:29Z)
Learning Abstract and Transferable Representations for Planning [25.63560394067908]
本稿では,エージェントの環境状態の抽象化を自律的に学習するフレームワークを提案する。これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。本稿では,これらの可搬型表現と問題固有の表現を組み合わせて,特定のタスクの音響記述を生成する方法について述べる。
論文参考訳（メタデータ） (2022-05-04T14:40:04Z)
High-level Features for Resource Economy and Fast Learning in Skill Transfer [0.8602553195689513]
ディープネットワークは、ますます複雑な抽象化を形成する能力のために有効であることが証明されている。以前の作業では、デザイナバイアスを生み出す抽象化の形成を強制するか、多数のニューラルユニットを使用していた。本稿では,脳神経応答のダイナミクスを利用して,スキル伝達に使用するコンパクトな表現法を提案する。
論文参考訳（メタデータ） (2021-06-18T21:05:21Z)
Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文参考訳（メタデータ） (2021-02-22T18:56:34Z)
Return-Based Contrastive Representation Learning for Reinforcement Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文参考訳（メタデータ） (2021-02-22T13:04:18Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)
Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文参考訳（メタデータ） (2020-09-24T15:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。