論文の概要: Offline RL for Natural Language Generation with Implicit Language Q
Learning
- arxiv url: http://arxiv.org/abs/2206.11871v1
- Date: Sun, 5 Jun 2022 18:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 02:51:39.371955
- Title: Offline RL for Natural Language Generation with Implicit Language Q
Learning
- Title(参考訳): 暗黙言語q学習による自然言語生成のためのオフラインrl
- Authors: Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine
- Abstract要約: 本稿では,言語モデルを用いた暗黙的言語Q-ラーニング(ILQL)という,新たなオフラインRL動機付け手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定に有用である場合の詳細な実験分析も提示する。
- 参考スコア(独自算出の注目度): 87.76695816348027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models distill broad knowledge from text corpora. However,
they can be inconsistent when it comes to completing user specified tasks. This
issue can be addressed by finetuning such models via supervised learning on
curated datasets, or via reinforcement learning. In this work, we propose a
novel offline RL motivated method, implicit language Q-learning (ILQL),
designed for use on language models, that combines both the flexible utility
optimization framework of traditional RL algorithms with supervised learning's
ability to leverage existing data and its simplicity and stability. Our method,
based on dynamic programming, employs a blend of value conservatism alongside
an implicit dataset support constraint in learning value functions, which are
then used to guide language model generations towards maximizing utility. In
addition to empirically validating ILQL, we present a detailed empirical
analysis of situations where offline RL can be useful in natural language
generation settings, demonstrating how it can be a more effective utility
optimizer than prior approaches for end-to-end dialogue, and how it can
effectively optimize high variance reward functions based on subjective
judgement, such as whether to label a comment as an example of toxic speech or
not.
- Abstract(参考訳): 大規模言語モデルはテキストコーパスから幅広い知識を抽出する。
しかし、ユーザー特定タスクの完了に関しては一貫性がない場合がある。
この問題は、キュレートされたデータセットの教師あり学習や強化学習を通じて、これらのモデルを微調整することで対処できる。
本研究では,従来のRLアルゴリズムの柔軟なユーティリティ最適化フレームワークと,既存のデータを活用する教師あり学習能力と,そのシンプルさと安定性を組み合わせた,新しいオフラインRLモチベーション手法である暗黙的言語Q-ラーニング(ILQL)を提案する。
動的プログラミングをベースとした本手法では,学習価値関数における暗黙的データセットサポート制約と並行して,値保存性のブレンドを用いて,言語モデル生成を実用性最大化に向けて導く。
ILQLの実証的検証に加えて、オフラインRLが自然言語生成設定において有用である場合の詳細な実証分析を行い、従来のエンドツーエンド対話のアプローチよりも効果的なユーティリティオプティマイザになり得るか、また、コメントを有害な音声の例としてラベル付けするかどうかなどの主観的判断に基づいて、高分散報酬関数を効果的に最適化できるかを示す。
関連論文リスト
- Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Can Offline Reinforcement Learning Help Natural Language Understanding? [31.788133426611587]
オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。
RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。
実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:55:10Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。
強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文 参考訳(メタデータ) (2021-09-20T08:46:51Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。