論文の概要: Towards Flexible Inference in Sequential Decision Problems via
Bidirectional Transformers
- arxiv url: http://arxiv.org/abs/2204.13326v1
- Date: Thu, 28 Apr 2022 07:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-30 01:51:00.286439
- Title: Towards Flexible Inference in Sequential Decision Problems via
Bidirectional Transformers
- Title(参考訳): 双方向変圧器による逐次決定問題の柔軟推論に向けて
- Authors: Micah Carroll, Jessy Lin, Orr Paradise, Raluca Georgescu, Mingfei Sun,
David Bignell, Stephanie Milani, Katja Hofmann, Matthew Hausknecht, Anca
Dragan, Sam Devlin
- Abstract要約: FlexiBiTフレームワークを導入し、さまざまなシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
1つのFlexiBiTモデルは、特別なモデルと同等かそれ以上のパフォーマンスで、同時に多くのタスクを実行することができる。
- 参考スコア(独自算出の注目度): 17.09745648221254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomly masking and predicting word tokens has been a successful approach in
pre-training language models for a variety of downstream tasks. In this work,
we observe that the same idea also applies naturally to sequential decision
making, where many well-studied tasks like behavior cloning, offline RL,
inverse dynamics, and waypoint conditioning correspond to different sequence
maskings over a sequence of states, actions, and returns. We introduce the
FlexiBiT framework, which provides a unified way to specify models which can be
trained on many different sequential decision making tasks. We show that a
single FlexiBiT model is simultaneously capable of carrying out many tasks with
performance similar to or better than specialized models. Additionally, we show
that performance can be further improved by fine-tuning our general model on
specific tasks of interest.
- Abstract(参考訳): 単語トークンのランダムマスキングと予測は、ダウンストリームタスクで言語モデルを事前学習するのに成功している。
本研究では,振る舞いのクローン化,オフラインrl,逆ダイナミクス,waypoint条件付けなど,多くのよく研究されたタスクが,状態,アクション,戻り値のシーケンス上で異なるシーケンスマスキングに対応するような,シーケンシャルな意思決定にも,同じアイデアが自然に適用されることを観察する。
FlexiBiTフレームワークを導入し、さまざまなシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
1つのFlexiBiTモデルが、特殊モデルと同等かそれ以上の性能を持つ多くのタスクを同時に実行可能であることを示す。
さらに、特定のタスクに対して一般的なモデルを微調整することで、パフォーマンスをさらに改善できることを示す。
関連論文リスト
- Regularized Conditional Diffusion Model for Multi-Task Preference Alignment [43.86042557447689]
連続的な意思決定は、人間の意図と一致し、様々なタスクにまたがる多角性を示すことが望まれる。
従来は条件付き拡散モデルを用いて軌道分布を直接モデル化し,条件生成プロセスとして定式化していた。
本研究では,シングルタスクとマルチタスクの両意思決定の統一条件として,マルチタスクの選好を採用する。
論文 参考訳(メタデータ) (2024-04-07T11:20:32Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - UniMASK: Unified Inference in Sequential Decision Problems [17.09745648221254]
UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
単一のUniMASKモデルは、シングルタスクモデルと同じようなパフォーマンスで多くのタスクを実行することができる。
論文 参考訳(メタデータ) (2022-11-20T04:54:49Z) - Multi-Order Networks for Action Unit Detection [7.971065005161565]
Multi-Order Network (MONET) は,タスク順序を最適化したマルチタスク学習手法である。
我々はMONETが顔行動単位検出における最先端性能を著しく拡張していることを示す。
論文 参考訳(メタデータ) (2022-02-01T14:58:21Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。