論文の概要: Filtering Learning Histories Enhances In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.15143v1
- Date: Wed, 21 May 2025 06:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.919635
- Title: Filtering Learning Histories Enhances In-Context Reinforcement Learning
- Title(参考訳): 文脈強化学習を促すフィルタリング学習履歴
- Authors: Weiqin Chen, Xinjie Zhang, Dharmashankar Subramanian, Santiago Paternain,
- Abstract要約: トランスフォーマーモデル(TM)は、テキスト内強化学習能力に優れていた。
我々は、ICRLを強化するために、単純で効果的な学習履歴フィルタリング(LHF)を提案する。
LHFは、データセット前処理によるソースの最適化を回避するための最初のアプローチである。
- 参考スコア(独自算出の注目度): 12.697029805927398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models (TMs) have exhibited remarkable in-context reinforcement learning (ICRL) capabilities, allowing them to generalize to and improve in previously unseen environments without re-training or fine-tuning. This is typically accomplished by imitating the complete learning histories of a source RL algorithm over a substantial amount of pretraining environments, which, however, may transfer suboptimal behaviors inherited from the source algorithm/dataset. Therefore, in this work, we address the issue of inheriting suboptimality from the perspective of dataset preprocessing. Motivated by the success of the weighted empirical risk minimization, we propose a simple yet effective approach, learning history filtering (LHF), to enhance ICRL by reweighting and filtering the learning histories based on their improvement and stability characteristics. To the best of our knowledge, LHF is the first approach to avoid source suboptimality by dataset preprocessing, and can be combined with the current state-of-the-art (SOTA) ICRL algorithms. We substantiate the effectiveness of LHF through a series of experiments conducted on the well-known ICRL benchmarks, encompassing both discrete environments and continuous robotic manipulation tasks, with three SOTA ICRL algorithms (AD, DPT, DICP) as the backbones. LHF exhibits robust performance across a variety of suboptimal scenarios, as well as under varying hyperparameters and sampling strategies. Notably, the superior performance of LHF becomes more pronounced in the presence of noisy data, indicating the significance of filtering learning histories.
- Abstract(参考訳): トランスフォーマーモデル(TM)は、テキスト内強化学習(ICRL)の優れた能力を示しており、トレーニングや微調整をすることなく、これまで見えなかった環境への一般化と改善を可能にしている。
これは典型的には、ソースRLアルゴリズムの完全な学習履歴をかなりの事前学習環境上で模倣することで達成される。
そこで本研究では,データセット前処理の観点から,下位最適性を継承する問題に対処する。
重み付けされた経験的リスク最小化の成功に触発された本研究では,その改善と安定性特性に基づいて,学習履歴を再重み付け・フィルタリングすることでICRLを強化するための,単純かつ効果的な学習履歴フィルタリング(LHF)を提案する。
我々の知る限りでは、LHFはデータセット前処理によるソースのサブ最適化を回避するための最初のアプローチであり、現在のSOTA (State-of-the-art) ICRLアルゴリズムと組み合わせることができる。
本研究は,SOTA ICRLアルゴリズム(AD, DPT, DICP)をバックボーンとし, 離散環境と連続的なロボット操作作業の両方を含む,よく知られたICRLベンチマークによる一連の実験を通してLHFの有効性を実証する。
LHFは様々な準最適シナリオにまたがって頑健な性能を示し、ハイパーパラメータやサンプリング戦略も異なる。
特に、ノイズの多いデータが存在する場合にはLHFの優れた性能がより顕著になり、学習履歴をフィルタリングすることの重要性が示される。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Task Aware Modulation using Representation Learning: An Approach for Few Shot Learning in Environmental Systems [15.40286222692196]
TAM-RLは異種システムにおける少数ショット学習のための新しいフレームワークである。
2つの実環境データセット上でのTAM-RLの評価を行った。
論文 参考訳(メタデータ) (2023-10-07T07:55:22Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。