論文の概要: Controlling Conditional Language Models with Distributional Policy
Gradients
- arxiv url: http://arxiv.org/abs/2112.00791v1
- Date: Wed, 1 Dec 2021 19:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 12:13:05.586755
- Title: Controlling Conditional Language Models with Distributional Policy
Gradients
- Title(参考訳): 分散政策勾配を用いた条件言語モデルの制御
- Authors: Tomasz Korbak and Hady Elsahar and German Kruszewski and Marc Dymetman
- Abstract要約: 汎用事前学習型生成モデルは、ダウンストリーム要求の一部を満たすことができないことが多い。
このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。
近年の研究では、エネルギーモデルを用いてタスク固有の要求を表現することによって、この問題を解決することが示唆されている。
本稿では,条件付きDMG(CDPG)を提案し,条件付きタスクにアプローチを拡張した。
- 参考スコア(独自算出の注目度): 2.9176992922046923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning is shifting towards general-purpose pretrained generative
models, trained in a self-supervised manner on large amounts of data, which can
then be applied to solve a large number of tasks. However, due to their generic
training methodology, these models often fail to meet some of the downstream
requirements (e.g. hallucination in abstractive summarization or wrong format
in automatic code generation). This raises an important question on how to
adapt pre-trained generative models to a new task without destroying its
capabilities. Recent work has suggested to solve this problem by representing
task-specific requirements through energy-based models (EBMs) and approximating
these EBMs using distributional policy gradients (DPG). Unfortunately, this
approach is limited to unconditional distributions, represented by
unconditional EBMs. In this paper, we extend this approach to conditional tasks
by proposing Conditional DPG (CDPG). We evaluate CDPG on three different
control objectives across two tasks: summarization with T5 and code generation
with GPT-Neo. Our results show that fine-tuning using CDPG robustly moves these
pretrained models closer towards meeting control objectives and -- in contrast
with baseline approaches -- does not result in catastrophic forgetting.
- Abstract(参考訳): 機械学習は汎用的な事前学習型生成モデルへとシフトし、大量のデータに基づいて自己教師付きで訓練され、大量のタスクを解決できるようになっている。
しかし、一般的なトレーニング方法論のため、これらのモデルは下流の要件(例えば、抽象的な要約の幻覚や自動コード生成の間違ったフォーマット)を満たさないことが多い。
このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。
最近の研究は、エネルギーベースモデル(EBM)を通してタスク固有の要求を表現し、分散政策勾配(DPG)を用いてこれらのEMMを近似することでこの問題を解決することを示唆している。
残念ながら、このアプローチは無条件の EBM で表される非条件分布に限られている。
本稿では,条件付きdpg (cdpg) の提案により,条件付きタスクに適用する。
我々は,T5による要約とGPT-Neoによるコード生成の3つのタスクに対してCDPGを評価した。
以上の結果から,CDPGを用いた微調整は,これらの事前学習されたモデルを制御対象に近づけるとともに,ベースラインのアプローチとは対照的に,破滅的な忘れを生じさせるものではないことがわかった。
関連論文リスト
- TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling [16.77137239284608]
タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
エンコーダのターンレベルマルチタスク目的を提案する。
デコーダに対しては,アクションツリーに基づくスケジュールサンプリング手法を導入する。
論文 参考訳(メタデータ) (2024-01-28T11:02:23Z) - Deep Graph Reprogramming [112.34663053130073]
グラフニューラルネットワーク(GNN)に適したタスク再利用モデル「ディープグラフ再プログラミング」
本稿では,モデル再プログラミングパラダイムと並行して,革新的なデータ再プログラミングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-28T02:04:29Z) - A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T23:52:48Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - Revisiting Gaussian mixture critics in off-policy reinforcement
learning: a sample-based approach [28.199348547856175]
本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。
さまざまな課題に対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-21T16:44:47Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Reinforcement Learning from Demonstrations by Novel Interactive Expert
and Application to Automatic Berthing Control Systems for Unmanned Surface
Vessel [12.453219390225428]
RLfD(Reinforcement Learning from Demonstration)の2つの新しい実践的手法を開発し,無人表面容器の自動バーシング制御システムに適用した。
The new expert data generation method, called Model Predictive Based Expert (MPBE) was developed to provide high quality supervision data for RLfD algorithm。
また,MP-DDPGに基づく新たなRLfDアルゴリズムであるSelf-Guided Actor-Critic (SGAC)が存在する。
論文 参考訳(メタデータ) (2022-02-23T06:45:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。