論文の概要: In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2405.20692v1
- Date: Fri, 31 May 2024 08:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:07:03.093208
- Title: In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought
- Title(参考訳): In-Context Decision Transformer:階層型チェーン・オブ・サートによる強化学習
- Authors: Sili Huang, Jifeng Hu, Hechang Chen, Lichao Sun, Bo Yang,
- Abstract要約: In-context Decision Transformer (IDT) を提案する。
IDTは人間の意思決定の効率的な階層構造にインスパイアされている。
IDTは、現在のコンテキスト内RLメソッドよりも長い水平タスクの最先端を実現する。
- 参考スコア(独自算出の注目度): 13.034968416139826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning is a promising approach for offline reinforcement learning (RL) to handle online tasks, which can be achieved by providing task prompts. Recent works demonstrated that in-context RL could emerge with self-improvement in a trial-and-error manner when treating RL tasks as an across-episodic sequential prediction problem. Despite the self-improvement not requiring gradient updates, current works still suffer from high computational costs when the across-episodic sequence increases with task horizons. To this end, we propose an In-context Decision Transformer (IDT) to achieve self-improvement in a high-level trial-and-error manner. Specifically, IDT is inspired by the efficient hierarchical structure of human decision-making and thus reconstructs the sequence to consist of high-level decisions instead of low-level actions that interact with environments. As one high-level decision can guide multi-step low-level actions, IDT naturally avoids excessively long sequences and solves online tasks more efficiently. Experimental results show that IDT achieves state-of-the-art in long-horizon tasks over current in-context RL methods. In particular, the online evaluation time of our IDT is \textbf{36$\times$} times faster than baselines in the D4RL benchmark and \textbf{27$\times$} times faster in the Grid World benchmark.
- Abstract(参考訳): In-context Learningは、オンラインタスクを処理するオフライン強化学習(RL)において有望なアプローチであり、タスクプロンプトを提供することで実現可能である。
近年の研究では、RLタスクをエポゾディックな逐次予測問題として扱う際に、文脈内RLが試行錯誤的に自己改善されうることが示されている。
漸進的な更新を必要としない自己改善にもかかわらず、現在の作業はタスクの地平線とともに全エピソードシーケンスが増加すると高い計算コストに悩まされる。
そこで本研究では,高レベルな試行錯誤方式で自己改善を実現するために,In-context Decision Transformer (IDT)を提案する。
特に、IDTは人間の意思決定の効率的な階層構造にインスパイアされ、環境と相互作用する低レベルの行動ではなく、高レベルの決定からなるシーケンスを再構築する。
1つのハイレベルな意思決定は、多段階の低レベルなアクションを導くことができるため、IDTは自然に過度に長いシーケンスを回避し、オンラインタスクをより効率的に解決する。
実験結果から, IDT は現在のコンテキスト内 RL 法よりも長い水平タスクの最先端化を実現していることがわかった。
特に、私たちの IDT のオンライン評価時間は、D4RL ベンチマークのベースラインの \textbf{36$\times$} 倍、Grid World ベンチマークの \textbf{27$\times$} 倍である。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer [47.924941959320996]
我々はPlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。
PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。
低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
論文 参考訳(メタデータ) (2024-06-10T20:59:53Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Digital Twin-Assisted Efficient Reinforcement Learning for Edge Task
Scheduling [10.777592783012702]
本稿では,RLの性能と収束性を改善するために,Digital Twin(DT)を用いたRLベースのタスクスケジューリング手法を提案する。
DT支援非同期Qラーニング(DTAQL)とDT支援Qラーニング(DTEQL)という2つのアルゴリズムがタスクスケジューリング決定を行うように設計されている。
論文 参考訳(メタデータ) (2022-08-02T23:26:08Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。