論文の概要: Generalization to New Sequential Decision Making Tasks with In-Context
Learning
- arxiv url: http://arxiv.org/abs/2312.03801v1
- Date: Wed, 6 Dec 2023 15:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:29:06.992296
- Title: Generalization to New Sequential Decision Making Tasks with In-Context
Learning
- Title(参考訳): 文脈学習による新しい順序決定課題への一般化
- Authors: Sharath Chandra Raparthy, Eric Hambro, Robert Kirk, Mikael Henaff,
Roberta Raileanu
- Abstract要約: 少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
本稿では,変換器を逐次決定問題に適用しても,新しいタスクの文脈内学習は不可能であることを示す。
我々は、異なる設計選択を調査し、より大きなモデルとデータセットサイズ、さらにタスクの多様性、環境、トラジェクトリのバーストネスが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
- 参考スコア(独自算出の注目度): 23.36106067650874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training autonomous agents that can learn new tasks from only a handful of
demonstrations is a long-standing problem in machine learning. Recently,
transformers have been shown to learn new language or vision tasks without any
weight updates from only a few examples, also referred to as in-context
learning. However, the sequential decision making setting poses additional
challenges having a lower tolerance for errors since the environment's
stochasticity or the agent's actions can lead to unseen, and sometimes
unrecoverable, states. In this paper, we use an illustrative example to show
that naively applying transformers to sequential decision making problems does
not enable in-context learning of new tasks. We then demonstrate how training
on sequences of trajectories with certain distributional properties leads to
in-context learning of new sequential decision making tasks. We investigate
different design choices and find that larger model and dataset sizes, as well
as more task diversity, environment stochasticity, and trajectory burstiness,
all result in better in-context learning of new out-of-distribution tasks. By
training on large diverse offline datasets, our model is able to learn new
MiniHack and Procgen tasks without any weight updates from just a handful of
demonstrations.
- Abstract(参考訳): 少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
近年、トランスフォーマーは、いくつかの例から何の重みも加えずに新しい言語や視覚タスクを学習することが示されている。
しかし、逐次的な意思決定設定は、環境の確率性やエージェントの行動が目に見えず、時には保存不可能な状態につながるため、エラーに対する耐性が低い追加の課題を生じさせる。
本稿では, 逐次決定問題に対するトランスフォーマーの適用が, 新しいタスクの文脈内学習を可能としないことを示すために, 実例を用いた。
次に、ある分布特性を持つ軌道のシーケンスのトレーニングが、新しい順序決定タスクのコンテキスト内学習にどのようにつながるかを示す。
異なる設計選択を調査し、より多くのタスクの多様性、環境確率性、トラジェクティブバーストネスなど、より大きなモデルとデータセットのサイズが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
大規模なオフラインデータセットをトレーニングすることで、私たちのモデルは、ほんの数回のデモから重みを更新することなく、新しいMiniHackとProcgenタスクを学習できます。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Look-Ahead Selective Plasticity for Continual Learning of Visual Tasks [9.82510084910641]
タスク境界において,タスクが終了し,他のタスク開始時に発生する新しいメカニズムを提案する。
CIFAR10やTinyImagenetなどのコンピュータビジョンデータセットのベンチマークで提案手法を評価する。
論文 参考訳(メタデータ) (2023-11-02T22:00:23Z) - Few-Shot In-Context Imitation Learning via Implicit Graph Alignment [15.215659641228655]
オブジェクトのグラフ表現間の条件付きアライメント問題として模倣学習を定式化する。
この条件付けにより、ロボットがデモ直後に新しいオブジェクトのセット上でタスクを実行できる、コンテキスト内学習が可能となることを示す。
論文 参考訳(メタデータ) (2023-10-18T18:26:01Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Lifelong Learning of Few-shot Learners across NLP Tasks [45.273018249235705]
私たちは、さまざまなNLPタスクのシーケンスを通じて、生涯学習の難しさを研究します。
アダプタウェイトの生成をいくつかの例から学ぶ,継続的なメタラーニングアプローチを提案する。
私たちのアプローチは、トレーニングタスクよりもモデルのパフォーマンスを維持し、将来のタスクが学習されるとポジティブな知識伝達につながります。
論文 参考訳(メタデータ) (2021-04-18T10:41:56Z) - Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks [2.1485350418225244]
Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
論文 参考訳(メタデータ) (2021-03-23T17:16:38Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Meta Adaptation using Importance Weighted Demonstrations [19.37671674146514]
エージェントが新しいタスクを推測することが困難である場合も少なくない。
本稿では,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。
環境タスクの多様性からロボットを訓練し、目に見えない環境に適応できる実験を行った。
論文 参考訳(メタデータ) (2019-11-23T07:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。