論文の概要: Offline RL for Natural Language Generation with Implicit Language Q
Learning
- arxiv url: http://arxiv.org/abs/2206.11871v2
- Date: Mon, 1 May 2023 04:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:57:51.261654
- Title: Offline RL for Natural Language Generation with Implicit Language Q
Learning
- Title(参考訳): 暗黙言語q学習による自然言語生成のためのオフラインrl
- Authors: Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine
- Abstract要約: ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
- 参考スコア(独自算出の注目度): 87.76695816348027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models distill broad knowledge from text corpora. However,
they can be inconsistent when it comes to completing user specified tasks. This
issue can be addressed by finetuning such models via supervised learning on
curated datasets, or via reinforcement learning. In this work, we propose a
novel offline RL method, implicit language Q-learning (ILQL), designed for use
on language models, that combines both the flexible utility maximization
framework of RL algorithms with the ability of supervised learning to leverage
previously collected data, as well as its simplicity and stability. Our method
employs a combination of value conservatism alongside an implicit dataset
support constraint in learning value functions, which are then used to guide
language model generations towards maximizing user-specified utility functions.
In addition to empirically validating ILQL, we present a detailed empirical
analysis of situations where offline RL can be useful in natural language
generation settings, demonstrating how it can be a more effective utility
optimizer than prior approaches for end-to-end dialogue, and how it can
effectively optimize high variance reward functions based on subjective
judgement, such as whether to label a comment as toxic or not.
- Abstract(参考訳): 大規模言語モデルはテキストコーパスから幅広い知識を抽出する。
しかし、ユーザー特定タスクの完了に関しては一貫性がない場合がある。
この問題は、キュレートされたデータセットの教師あり学習や強化学習を通じて、これらのモデルを微調整することで対処できる。
本稿では,言語モデルに適用可能なオフラインrl手法である暗黙的言語q-learning(ilql)を提案する。これは,rlアルゴリズムの柔軟なユーティリティ最大化フレームワークと,以前に収集したデータを活用する教師付き学習機能と,そのシンプルさと安定性を組み合わせたものである。
提案手法は,学習価値関数における暗黙的データセットサポート制約と併用し,ユーザ特定ユーティリティ関数の最大化に向けた言語モデル生成のガイドに使用される。
ilqlの実証的検証に加えて,自然言語生成においてオフラインrlが有効な状況に関する詳細な実証分析を行い,エンド・ツー・エンド対話のアプローチよりも効果的なユーティリティオプティマイザになり得ること,コメントを有毒と分類するか否かなどの主観的判断に基づいて,高分散報酬関数を効果的に最適化できることを実証する。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
大規模言語モデル(LLM)と決定木推論(OCTree)に基づく新しいフレームワークを提案する。
私たちのキーとなるアイデアは、LLMの推論機能を活用して、手動で検索スペースを指定せずに優れた特徴生成ルールを見つけることです。
実験の結果、この単純なフレームワークは様々な予測モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Instructed Language Models with Retrievers Are Powerful Entity Linkers [87.16283281290053]
Instructed Generative Entity Linker (INSGENEL)は、カジュアル言語モデルが知識ベース上でエンティティリンクを実行することを可能にする最初のアプローチである。
INSGENEL は、+6.8 F1 点が平均的に上昇する以前の生成的代替よりも優れていた。
論文 参考訳(メタデータ) (2023-11-06T16:38:51Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。
強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文 参考訳(メタデータ) (2021-09-20T08:46:51Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。