論文の概要: True Online TD-Replan(lambda) Achieving Planning through Replaying
- arxiv url: http://arxiv.org/abs/2501.19027v1
- Date: Fri, 31 Jan 2025 10:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:20.680608
- Title: True Online TD-Replan(lambda) Achieving Planning through Replaying
- Title(参考訳): リプレイによるプランニングを実現する真のオンラインTD-Replan(lambda)
- Authors: Abdulrahman Altahhan,
- Abstract要約: 我々は、エージェントが過去の経験の全てまたは一部を効率的に再生できるように、真のオンラインTDの機能を拡張する新しい計画手法を開発した。
True Online TD-Replan(lambda)と呼ばれるこの新しいメソッドでは、ラムダパラメータがリプレイプロセスの密度を指定する際に新しい役割を果たす。
我々は、経験的リプレイの恩恵を受ける問題に対して、新しい手法が真のオンラインTD(lambda)よりも優れていることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we develop a new planning method that extends the capabilities of the true online TD to allow an agent to efficiently replay all or part of its past experience, online in the sequence that they appear with, either in each step or sparsely according to the usual {\lambda} parameter. In this new method that we call True Online TD-Replan({\lambda}), the {\lambda} parameter plays a new role in specifying the density of the replay process in addition to the usual role of specifying the depth of the target's updates. We demonstrate that, for problems that benefit from experience replay, our new method outperforms true online TD({\lambda}), albeit quadratic in complexity due to its replay capabilities. In addition, we demonstrate that our method outperforms other methods with similar quadratic complexity such as Dyna Planning and TD({\lambda})-Replan algorithms. We test our method on two benchmarking environments, a random walk problem that uses simple binary features and a myoelectric control domain that uses both simple sEMG features and deeply extracted features to showcase its capabilities.
- Abstract(参考訳): 本稿では,エージェントが過去の経験の全てあるいは一部を,各ステップで,あるいは通常の {\lambda} パラメータに従ってスパース的に,オンラインで効率よく再生できるように,真のオンラインTDの能力を拡張した新しい計画手法を開発する。
True Online TD-Replan({\lambda})と呼ばれるこの新しい手法では、ターゲットの更新の深さを指定する通常の役割に加えて、replayプロセスの密度を指定する際に、パラメータが新しい役割を果たす。
我々は、経験的リプレイの恩恵を受ける問題に対して、新しい手法が真のオンラインTD({\lambda})よりも優れていることを実証する。
さらに,Dyna Planning や TD({\lambda})-Replan アルゴリズムのような2次的複雑性を持つ他の手法よりも優れていることを示す。
本手法は,2つのベンチマーク環境において,単純なバイナリ機能を用いたランダムウォーク問題と,単純なsEMG機能と深く抽出された機能の両方を用いた筋電制御領域を用いて,その機能を示す。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。
トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。
本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-20T15:48:32Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z) - TADIL: Task-Agnostic Domain-Incremental Learning through Task-ID
Inference using Transformer Nearest-Centroid Embeddings [0.0]
ドメイン・インクリメンタル・ラーニングのシナリオにおいて,教師なしのタスクを識別するための新しいパイプラインを提案する。
我々は、パイプラインの軽量な計算要求を活用して、新しいタスクをいつ学習するかをオンラインで決定するアルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-06-21T00:55:02Z) - Efficient Continual Adaptation for Generative Adversarial Networks [97.20244383723853]
GAN(Generative Adversarial Network)に対する連続学習手法を提案する。
我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。
機能マップ変換に基づくアプローチは,最先端のgans手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-06T05:09:37Z) - AM-RRT*: Informed Sampling-based Planning with Assisting Metric [3.42658286826597]
複雑な動的環境下でのオンラインパス計画のためのRRT*とRT-RRT*を拡張する新しいアルゴリズムを提案する。
提案手法はRTRに基づくサンプリング手法を拡張して,障害物のある環境における性能向上のためのアシスト距離測定値の活用を可能にする。
論文 参考訳(メタデータ) (2020-10-28T01:39:40Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。