論文の概要: UniMASK: Unified Inference in Sequential Decision Problems
- arxiv url: http://arxiv.org/abs/2211.10869v1
- Date: Sun, 20 Nov 2022 04:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:54:10.569206
- Title: UniMASK: Unified Inference in Sequential Decision Problems
- Title(参考訳): UniMASK:シーケンス決定問題における統一推論
- Authors: Micah Carroll, Orr Paradise, Jessy Lin, Raluca Georgescu, Mingfei Sun,
David Bignell, Stephanie Milani, Katja Hofmann, Matthew Hausknecht, Anca
Dragan, Sam Devlin
- Abstract要約: UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
単一のUniMASKモデルは、シングルタスクモデルと同じようなパフォーマンスで多くのタスクを実行することができる。
- 参考スコア(独自算出の注目度): 17.09745648221254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomly masking and predicting word tokens has been a successful approach in
pre-training language models for a variety of downstream tasks. In this work,
we observe that the same idea also applies naturally to sequential
decision-making, where many well-studied tasks like behavior cloning, offline
reinforcement learning, inverse dynamics, and waypoint conditioning correspond
to different sequence maskings over a sequence of states, actions, and returns.
We introduce the UniMASK framework, which provides a unified way to specify
models which can be trained on many different sequential decision-making tasks.
We show that a single UniMASK model is often capable of carrying out many tasks
with performance similar to or better than single-task models. Additionally,
after fine-tuning, our UniMASK models consistently outperform comparable
single-task models. Our code is publicly available at
https://github.com/micahcarroll/uniMASK.
- Abstract(参考訳): 単語トークンのランダムマスキングと予測は、ダウンストリームタスクで言語モデルを事前学習するのに成功している。
本研究では,行動のクローン化,オフライン強化学習,逆ダイナミクス,waypoint条件付けなど,多くのよく研究されたタスクが,状態やアクション,戻り値のシーケンス上で異なるシーケンスマスキングに対応するような,シーケンシャルな意思決定にも,同じアイデアが自然に適用されることを観察する。
UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
一つのUniMASKモデルが、シングルタスクモデルに近い、またはより良いパフォーマンスで多くのタスクを実行できることがよく示される。
さらに、微調整後、我々のUniMASKモデルは一貫して同等の単一タスクモデルより優れています。
私たちのコードはhttps://github.com/micahcarroll/uniMASK.comで公開されています。
関連論文リスト
- Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文 参考訳(メタデータ) (2024-03-06T17:23:28Z) - SplAgger: Split Aggregation for Meta-Reinforcement Learning [32.25672143072966]
ブラックボックスメソッドは、オフザシェルフシーケンスモデルをエンドツーエンドでトレーニングすることで実現している。
タスク推論メソッドは、未知のタスク上の後方分布を明示的に推論する。
近年の研究では、タスク推論シーケンスモデルは高いパフォーマンスには必要ないことが示されている。
タスク推論シーケンスモデルが依然として有用であることを示す。
論文 参考訳(メタデータ) (2024-03-05T14:57:04Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Towards Flexible Inference in Sequential Decision Problems via
Bidirectional Transformers [17.09745648221254]
FlexiBiTフレームワークを導入し、さまざまなシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
1つのFlexiBiTモデルは、特別なモデルと同等かそれ以上のパフォーマンスで、同時に多くのタスクを実行することができる。
論文 参考訳(メタデータ) (2022-04-28T07:50:08Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。