論文の概要: MAGIK: Mapping to Analogous Goals via Imagination-enabled Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2506.01623v1
- Date: Mon, 02 Jun 2025 13:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.388561
- Title: MAGIK: Mapping to Analogous Goals via Imagination-enabled Knowledge Transfer
- Title(参考訳): MAGIK:Imagination対応知識伝達によるアナログゴールへのマッピング
- Authors: Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana,
- Abstract要約: 強化学習エージェントは通常、新しいタスクが以前に学習したタスクと構造的類似性を共有する場合であっても、広範囲な再訓練を必要とする。
我々は、RLエージェントがターゲット環境と対話することなく、類似したタスクに知識を伝達できる新しいフレームワークMAGIKを提案する。
- 参考スコア(独自算出の注目度): 14.948610521764415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at analogical reasoning - applying knowledge from one task to a related one with minimal relearning. In contrast, reinforcement learning (RL) agents typically require extensive retraining even when new tasks share structural similarities with previously learned ones. In this work, we propose MAGIK, a novel framework that enables RL agents to transfer knowledge to analogous tasks without interacting with the target environment. Our approach leverages an imagination mechanism to map entities in the target task to their analogues in the source domain, allowing the agent to reuse its original policy. Experiments on custom MiniGrid and MuJoCo tasks show that MAGIK achieves effective zero-shot transfer using only a small number of human-labelled examples. We compare our approach to related baselines and highlight how it offers a novel and effective mechanism for knowledge transfer via imagination-based analogy mapping.
- Abstract(参考訳): 人間は類推的推論において優れ、あるタスクから関連するタスクへの知識を最小限の再学習で適用する。
対照的に、強化学習(RL)エージェントは、新しいタスクが以前に学習したタスクと構造的類似性を共有する場合であっても、広範囲な再訓練を必要とするのが普通である。
本研究では,RLエージェントがターゲット環境と対話することなく,類似タスクに知識を伝達できる新しいフレームワークMAGIKを提案する。
提案手法は,対象タスクのエンティティをソースドメインのアナログにマッピングするイマジネーション機構を利用して,エージェントが元のポリシーを再利用できるようにする。
カスタムのMiniGridとMuJoCoタスクの実験では、MAGIKは、少数の人間ラベルの例だけで効果的なゼロショット転送を実現している。
我々は,本手法を関連するベースラインと比較し,想像に基づくアナロジーマッピングによる知識伝達の新規かつ効果的なメカニズムについて強調する。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - A Taxonomy of Similarity Metrics for Markov Decision Processes [62.997667081978825]
近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
論文 参考訳(メタデータ) (2021-03-08T12:36:42Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Minimax Lower Bounds for Transfer Learning with Linear and One-hidden
Layer Neural Networks [27.44348371795822]
転送学習の限界を特徴付けるための統計的ミニマックスフレームワークを開発する。
ラベル付きソース数とターゲットデータの関数として,任意のアルゴリズムで達成可能なターゲット一般化誤差に対して,低いバウンドを導出する。
論文 参考訳(メタデータ) (2020-06-16T22:49:26Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。