論文の概要: Re:Frame -- Retrieving Experience From Associative Memory
- arxiv url: http://arxiv.org/abs/2508.19344v1
- Date: Tue, 26 Aug 2025 18:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.389884
- Title: Re:Frame -- Retrieving Experience From Associative Memory
- Title(参考訳): Re:Frame - 連想記憶から経験を得る
- Authors: Daniil Zelezetsky, Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: Re:Frameは標準のオフライン強化学習ポリシーを拡張するプラグインモジュールである。
低品質データのトレーニング中、ポリシーはAssociative Memory Bufferから専門家データを取得することを学ぶ。
D4RL MuJoCoタスクでは、60のエキスパートトラジェクトリ(6000トラックデータセットの0.1%)を使用して、Re:Frameは、4つの設定のうち3つで強力なDecision Transformerベースラインを継続的に改善する。
- 参考スコア(独自算出の注目度): 44.94110361062394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) often deals with suboptimal data when collecting large expert datasets is unavailable or impractical. This limitation makes it difficult for agents to generalize and achieve high performance, as they must learn primarily from imperfect or inconsistent trajectories. A central challenge is therefore how to best leverage scarce expert demonstrations alongside abundant but lower-quality data. We demonstrate that incorporating even a tiny amount of expert experience can substantially improve RL agent performance. We introduce Re:Frame (Retrieving Experience From Associative Memory), a plug-in module that augments a standard offline RL policy (e.g., Decision Transformer) with a small external Associative Memory Buffer (AMB) populated by expert trajectories drawn from a separate dataset. During training on low-quality data, the policy learns to retrieve expert data from the Associative Memory Buffer (AMB) via content-based associations and integrate them into decision-making; the same AMB is queried at evaluation. This requires no environment interaction and no modifications to the backbone architecture. On D4RL MuJoCo tasks, using as few as 60 expert trajectories (0.1% of a 6000-trajectory dataset), Re:Frame consistently improves over a strong Decision Transformer baseline in three of four settings, with gains up to +10.7 normalized points. These results show that Re:Frame offers a simple and data-efficient way to inject scarce expert knowledge and substantially improve offline RL from low-quality datasets.
- Abstract(参考訳): オフライン強化学習(RL)は、大規模な専門家データセットの収集が不可能または実用的でない場合、しばしば最適なデータを扱う。
この制限は、エージェントが不完全または矛盾した軌道から学習する必要があるため、エージェントを一般化し、高い性能を達成するのを難しくする。
したがって、重要な課題は、豊富なが品質の低いデータとともに、不足する専門家のデモンストレーションを最大限に活用する方法である。
ごく少数の専門家経験を取り入れることで,RLエージェントの性能が大幅に向上することが実証された。
Re:Frame(Retrieving Experience From Associative Memory)は、標準のオフラインRLポリシー(例:Decision Transformer)を強化したプラグインモジュールで、外部のAssociative Memory Buffer(AMB)が、別のデータセットから引き出された専門家のトラジェクトリによって集約される。
低品質データのトレーニングでは、AMB(Associative Memory Buffer)からコンテンツベースのアソシエーションを通じて専門家データを取得し、それらを意思決定に統合する。
これは環境の相互作用を必要とせず、バックボーンアーキテクチャの変更も不要である。
D4RL MuJoCoタスクでは、60の専門家軌道(6000トラックのデータセットの0.1%)を使用すると、Re:Frameは4つの設定のうち3つで強力な決定変換器ベースラインを常に改善し、+10.7の正規化ポイントを得る。
これらの結果は、Re:Frameが専門家の知識を不足させ、低品質のデータセットからオフラインのRLを大幅に改善する、シンプルでデータ効率のよい方法を提供することを示している。
関連論文リスト
- RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset [29.573555134322543]
オフライン強化学習(RL)により、エージェントは環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学習することができる。
オフラインRLにおける重要な課題は、オフラインデータセットの最適なサブセットを選択することだ。
本稿では、勾配近似最適化問題としてデータセット選択をフレーム化するReDORを提案する。
論文 参考訳(メタデータ) (2025-02-26T09:08:47Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Causal Decision Transformer for Recommender Systems via Offline
Reinforcement Learning [23.638418776700522]
我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
論文 参考訳(メタデータ) (2023-04-17T00:05:52Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。