論文の概要: Generalization to New Actions in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.01928v1
- Date: Tue, 3 Nov 2020 18:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:40:41.891297
- Title: Generalization to New Actions in Reinforcement Learning
- Title(参考訳): 強化学習における新しい行動への一般化
- Authors: Ayush Jain, Andrew Szot, Joseph J. Lim
- Abstract要約: 標準的な強化学習は、一定のアクションセットを前提としており、新しいアクションセットが与えられると、高価な再トレーニングが必要になる。
エージェントが最初にタスクから分離して取得したアクション情報からアクション表現を推測する2段階のフレームワークを提案する。
様々なアクションセットに柔軟なポリシーは、一般化の目的によって訓練される。
- 参考スコア(独自算出の注目度): 31.882725352759252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental trait of intelligence is the ability to achieve goals in the
face of novel circumstances, such as making decisions from new action choices.
However, standard reinforcement learning assumes a fixed set of actions and
requires expensive retraining when given a new action set. To make learning
agents more adaptable, we introduce the problem of zero-shot generalization to
new actions. We propose a two-stage framework where the agent first infers
action representations from action information acquired separately from the
task. A policy flexible to varying action sets is then trained with
generalization objectives. We benchmark generalization on sequential tasks,
such as selecting from an unseen tool-set to solve physical reasoning puzzles
and stacking towers with novel 3D shapes. Videos and code are available at
https://sites.google.com/view/action-generalization
- Abstract(参考訳): インテリジェンスの基本的な特徴は、新しい行動選択から決定を下すなど、新しい状況に直面して目標を達成する能力である。
しかし、標準強化学習は一定のアクションセットを前提としており、新しいアクションセットが与えられると高価なリトレーニングが必要になる。
学習エージェントの適応性を高めるため,新しいアクションにゼロショット一般化の問題を導入する。
エージェントがタスクから独立して取得したアクション情報からアクション表現を推論する2段階フレームワークを提案する。
様々なアクションセットに柔軟なポリシーは、一般化の目的によって訓練される。
物理推論パズルを解くためのツールセットの選択や,新しい3次元形状の積み重ねタワーなど,逐次タスクの一般化をベンチマークする。
ビデオとコードはhttps://sites.google.com/view/action-generalizationで入手できる。
関連論文リスト
- Generalization to New Sequential Decision Making Tasks with In-Context
Learning [23.36106067650874]
少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
本稿では,変換器を逐次決定問題に適用しても,新しいタスクの文脈内学習は不可能であることを示す。
我々は、異なる設計選択を調査し、より大きなモデルとデータセットサイズ、さらにタスクの多様性、環境、トラジェクトリのバーストネスが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
論文 参考訳(メタデータ) (2023-12-06T15:19:28Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Compositional Multi-Object Reinforcement Learning with Linear Relation
Networks [38.59852895970774]
我々は、固定されたマルチオブジェクト設定で操作タスクを学習し、オブジェクトの数が変化するとパフォーマンスが低下することなく、このスキルをゼロショットの外挿できるモデルに焦点を当てる。
我々のアプローチは、$K$で線形にスケールするので、エージェントは新しいオブジェクト番号にゼロショットを外挿して一般化することができる。
論文 参考訳(メタデータ) (2022-01-31T17:53:30Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Transforming task representations to perform novel tasks [12.008469282323492]
知性の重要な側面は、直接の経験(ゼロショット)なしで新しいタスクに適応できる能力である。
本稿では,従来のタスクとの関係に基づいて,新しいタスクに適応するための一般的な計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T23:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。