論文の概要: Reward Bonuses with Gain Scheduling Inspired by Iterative Deepening
Search
- arxiv url: http://arxiv.org/abs/2212.10765v1
- Date: Wed, 21 Dec 2022 04:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:02:10.392014
- Title: Reward Bonuses with Gain Scheduling Inspired by Iterative Deepening
Search
- Title(参考訳): 反復深度探索によるゲインスケジューリングによるリワードボーナス
- Authors: Taisuke Kobayashi
- Abstract要約: 本稿では,タスク指向の報酬関数に本質的なボーナスを付加する手法を提案する。
様々なボーナスが現在までに設計されており、グラフ理論における深さ優先と幅優先の探索アルゴリズムに類似している。
2つの探索アルゴリズムの利点を継承することが知られている反復的深化探索にインスパイアされた、設計されたボーナスにゲインスケジューリングを適用する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel method of adding intrinsic bonuses to
task-oriented reward function in order to efficiently facilitate reinforcement
learning search. While various bonuses have been designed to date, they are
analogous to the depth-first and breadth-first search algorithms in graph
theory. This paper, therefore, first designs two bonuses for each of them.
Then, a heuristic gain scheduling is applied to the designed bonuses, inspired
by the iterative deepening search, which is known to inherit the advantages of
the two search algorithms. The proposed method is expected to allow agent to
efficiently reach the best solution in deeper states by gradually exploring
unknown states. In three locomotion tasks with dense rewards and three simple
tasks with sparse rewards, it is shown that the two types of bonuses contribute
to the performance improvement of the different tasks complementarily. In
addition, by combining them with the proposed gain scheduling, all tasks can be
accomplished with high performance.
- Abstract(参考訳): 本稿では,強化学習探索を効率的に行うために,タスク指向報酬関数に固有ボーナスを追加する新しい手法を提案する。
これまで様々なボーナスが設計されてきたが、グラフ理論における深さ優先および幅優先探索アルゴリズムと類似している。
そこで本論文はまず,それぞれに2つのボーナスを設計する。
次に、2つの探索アルゴリズムの利点を継承することが知られている反復的深化探索にインスパイアされた設計ボーナスにヒューリスティックゲインスケジューリングを適用する。
提案手法では, エージェントが未知の状態を徐々に探索することによって, より深い状態の最適解に効率的に到達できることが期待されている。
豪華な報酬を伴う3つの移動課題とスパースな報酬を伴う3つの簡単なタスクにおいて,2種類のボーナスが相補的に異なるタスクの性能向上に寄与することが示されている。
さらに、これらを利得スケジューリングと組み合わせることで、すべてのタスクを高いパフォーマンスで達成することができる。
関連論文リスト
- Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - A Study of Global and Episodic Bonuses for Exploration in Contextual
MDPs [21.31346761487944]
エピソード間の共有構造がほとんどない場合には,エピソードボーナスが最も有効であることを示す。
また、この2つのボーナスを組み合わせることで、共有構造の違いによって、より堅牢なパフォーマンスが得られることもわかりました。
これにより、前の作業で使用されるMiniHackスイートから16タスクにまたがる新しい最先端のアートを設定するアルゴリズムが実現される。
論文 参考訳(メタデータ) (2023-06-05T20:45:30Z) - Extracting task trees using knowledge retrieval search algorithms in
functional object-oriented network [0.0]
機能的オブジェクト指向ネットワーク(FOON)はロボットが利用できる知識表現法として開発されている。
FOONは、ロボットがタスクツリーを取得するための順序付けられた計画を提供するグラフとして見ることができる。
論文 参考訳(メタデータ) (2022-11-15T17:20:08Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Joint Learning On The Hierarchy Representation for Fine-Grained Human
Action Recognition [13.088129408377918]
微細な人間の行動認識はコンピュータビジョンにおける中核的な研究課題である。
本研究では,FinGym階層表現を利用して効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。
FineGymデータセットに対する我々の結果は、91.80%のTop-1精度と88.46%の要素アクションの平均精度で、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-12T09:37:51Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。