論文の概要: L-SA: Learning Under-Explored Targets in Multi-Target Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2305.13741v1
- Date: Tue, 23 May 2023 06:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:23:23.991756
- Title: L-SA: Learning Under-Explored Targets in Multi-Target Reinforcement
Learning
- Title(参考訳): L-SA:マルチターゲット強化学習における探索対象の学習
- Authors: Kibeom Kim, Hyundo Lee, Min Whoo Lee, Moonheon Lee, Minsu Lee,
Byoung-Tak Zhang
- Abstract要約: 適応サンプリングとアクティブクエリを含むL-SA(Adaptive Smpling and Active querying)フレームワークを提案する。
L-SAフレームワークでは、動的サンプリングが成功率が最も高いターゲットを動的にサンプリングする。
適応サンプリングとアクティブクエリの循環的関係は,探索対象の標本の豊かさを効果的に向上させることを実験的に実証した。
- 参考スコア(独自算出の注目度): 16.886934253882785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tasks that involve interaction with various targets are called multi-target
tasks. When applying general reinforcement learning approaches for such tasks,
certain targets that are difficult to access or interact with may be neglected
throughout the course of training - a predicament we call Under-explored Target
Problem (UTP). To address this problem, we propose L-SA (Learning by adaptive
Sampling and Active querying) framework that includes adaptive sampling and
active querying. In the L-SA framework, adaptive sampling dynamically samples
targets with the highest increase of success rates at a high proportion,
resulting in curricular learning from easy to hard targets. Active querying
prompts the agent to interact more frequently with under-explored targets that
need more experience or exploration. Our experimental results on visual
navigation tasks show that the L-SA framework improves sample efficiency as
well as success rates on various multi-target tasks with UTP. Also, it is
experimentally demonstrated that the cyclic relationship between adaptive
sampling and active querying effectively improves the sample richness of
under-explored targets and alleviates UTP.
- Abstract(参考訳): 様々なターゲットとのインタラクションを含むタスクはマルチターゲットタスクと呼ばれる。
このようなタスクに一般的な強化学習アプローチを適用する場合、アクセスや対話が難しい特定のターゲットは、トレーニングの過程で無視される可能性がある。
この問題に対処するため,適応サンプリングとアクティブクエリを含むL-SA(Adaptive Sampling and Active querying)フレームワークを提案する。
l-saフレームワークでは、適応サンプリングは、高い割合で最も高い成功率で動的にターゲットをサンプリングし、易度から硬度への学習に繋がる。
アクティブクエリにより、エージェントはより経験や探索を必要とする未探索のターゲットとより頻繁に対話できるようになる。
視覚的ナビゲーションタスクに関する実験結果から,l-saフレームワークはサンプル効率の向上と,utpを用いた多目的タスクの成功率を示した。
また, 適応サンプリングとアクティブクエリの循環的関係は, 探索対象の標本豊かさを効果的に改善し, UTPを緩和することを示した。
関連論文リスト
- PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning [28.353530290015794]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。
我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文 参考訳(メタデータ) (2024-02-23T03:59:18Z) - Towards Task Sampler Learning for Meta-Learning [37.02030832662183]
メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。
タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。
本稿では、経験的および理論的分析を通して、この見解に挑戦する。
論文 参考訳(メタデータ) (2023-07-18T01:53:18Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven
Multi-Objective Deep Reinforcement Learning Approach [3.5071575478443435]
侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。
深層強化学習(Deep Reinforcement Learning)は,浸透テストのプロセスを自動化するための,有望なソリューションだと考えられている。
我々は,チェビシェフ分解批判者に対して,侵入試験における異なる目的のバランスをとる多様な敵戦略を見出すことを提案する。
論文 参考訳(メタデータ) (2022-02-22T02:34:16Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。