論文の概要: Less is more -- the Dispatcher/ Executor principle for multi-task
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.09120v1
- Date: Thu, 14 Dec 2023 16:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:05:14.516551
- Title: Less is more -- the Dispatcher/ Executor principle for multi-task
Reinforcement Learning
- Title(参考訳): less is more -- マルチタスク強化学習のためのdispatcher/executor原則
- Authors: Martin Riedmiller, Tim Hertweck, Roland Hafner
- Abstract要約: 本稿では,マルチタスク強化学習コントローラの設計におけるディスパッチ/エグゼキュータの原理を紹介する。
コントローラを2つのエンティティに分割することを提案します。1つはタスク(ディスパッチ)を理解し、もう1つは特定のデバイス(エグゼキュータ)の制御を計算します。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans instinctively know how to neglect details when it comes to solve
complex decision making problems in environments with unforeseeable variations.
This abstraction process seems to be a vital property for most biological
systems and helps to 'abstract away' unnecessary details and boost
generalisation. In this work we introduce the dispatcher/ executor principle
for the design of multi-task Reinforcement Learning controllers. It suggests to
partition the controller in two entities, one that understands the task (the
dispatcher) and one that computes the controls for the specific device (the
executor) - and to connect these two by a strongly regularizing communication
channel. The core rationale behind this position paper is that changes in
structure and design principles can improve generalisation properties and
drastically enforce data-efficiency. It is in some sense a 'yes, and ...'
response to the current trend of using large neural networks trained on vast
amounts of data and bet on emerging generalisation properties. While we agree
on the power of scaling - in the sense of Sutton's 'bitter lesson' - we will
give some evidence, that considering structure and adding design principles can
be a valuable and critical component in particular when data is not abundant
and infinite, but is a precious resource.
- Abstract(参考訳): 人間は、予期せぬバリエーションのある環境で複雑な意思決定問題を解決するために、詳細を無視する方法を本能的に知っている。
この抽象化プロセスは、ほとんどの生物学的システムにとって重要な性質であり、不要な詳細を「取り除き」一般化を促進するのに役立つ。
本稿では,マルチタスク強化学習コントローラの設計のためのdispatcher/executor原則を提案する。
コントローラを2つのエンティティに分割することを提案する。ひとつはタスク(ディスパッチ)を理解し、もうひとつは特定のデバイス(executor)のコントロールを計算し、これら2つを強正規化通信チャネルで接続すること。
本研究の背景にある基本的な根拠は,構造と設計原則の変更が一般化特性を改善し,データ効率を劇的に向上できる点にある。
それはある意味では、大量のデータに基づいてトレーニングされた巨大なニューラルネットワークを使用し、新たな一般化特性に賭けるという現在のトレンドに対する、"yes, and ..."応答である。
スケーリングのパワー – Sutton氏の‘ビット・レッスン’という意味では – には同意していますが,構造を考慮し,設計原則を追加することは,データが豊富で無限ではなく,貴重なリソースである場合に,特に重要かつ重要なコンポーネントである,という証拠をいくつか与えます。
関連論文リスト
- Attention as a Hypernetwork [22.087242869138223]
トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の操作を規定していることを明らかにする。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクの予測であることがわかった。
論文 参考訳(メタデータ) (2024-06-09T15:08:00Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Learning Top-k Subtask Planning Tree based on Discriminative Representation Pre-training for Decision Making [9.302910360945042]
複雑な現実世界のタスクから抽出された事前知識による計画は、人間が正確な決定を行うために不可欠である。
マルチエンコーダと個別予測器を導入し、簡単なサブタスクのための十分なデータからタスク固有表現を学習する。
また、注意機構を用いてトップkのサブタスク計画木を生成し、未確認タスクの複雑な決定を導くためにサブタスク実行計画をカスタマイズする。
論文 参考訳(メタデータ) (2023-12-18T09:00:31Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Generalization Performance of Transfer Learning: Overparameterized and
Underparameterized Regimes [61.22448274621503]
現実世界のアプリケーションでは、タスクは部分的な類似性を示し、あるアスペクトは似ているが、他のアスペクトは異なるか無関係である。
本研究は,パラメータ伝達の2つの選択肢を包含して,多種多様な移動学習について検討する。
一般化性能を向上させるために,共通部分とタスク特化部分の特徴数を決定するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2023-06-08T03:08:40Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - High-level Features for Resource Economy and Fast Learning in Skill
Transfer [0.8602553195689513]
ディープネットワークは、ますます複雑な抽象化を形成する能力のために有効であることが証明されている。
以前の作業では、デザイナバイアスを生み出す抽象化の形成を強制するか、多数のニューラルユニットを使用していた。
本稿では,脳神経応答のダイナミクスを利用して,スキル伝達に使用するコンパクトな表現法を提案する。
論文 参考訳(メタデータ) (2021-06-18T21:05:21Z) - Representation Learning for Weakly Supervised Relation Extraction [19.689433249830465]
本論文では、分散テキスト表現機能を学ぶための教師なし事前学習モデルをいくつか提示する。
実験により,従来の手作りの特徴と組み合わせることで,関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。
論文 参考訳(メタデータ) (2021-04-10T12:22:25Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。