Fugu-MT 論文翻訳(概要): Offline RL for Natural Language Generation with Implicit Language Q Learning

論文の概要: Offline RL for Natural Language Generation with Implicit Language Q Learning

arxiv url: http://arxiv.org/abs/2206.11871v1
Date: Sun, 5 Jun 2022 18:38:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-27 02:51:39.371955
Title: Offline RL for Natural Language Generation with Implicit Language Q Learning
Title（参考訳）: 暗黙言語q学習による自然言語生成のためのオフラインrl
Authors: Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine
Abstract要約: 本稿では,言語モデルを用いた暗黙的言語Q-ラーニング(ILQL)という,新たなオフラインRL動機付け手法を提案する。 ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定に有用である場合の詳細な実験分析も提示する。
参考スコア（独自算出の注目度）: 87.76695816348027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models distill broad knowledge from text corpora. However, they can be inconsistent when it comes to completing user specified tasks. This issue can be addressed by finetuning such models via supervised learning on curated datasets, or via reinforcement learning. In this work, we propose a novel offline RL motivated method, implicit language Q-learning (ILQL), designed for use on language models, that combines both the flexible utility optimization framework of traditional RL algorithms with supervised learning's ability to leverage existing data and its simplicity and stability. Our method, based on dynamic programming, employs a blend of value conservatism alongside an implicit dataset support constraint in learning value functions, which are then used to guide language model generations towards maximizing utility. In addition to empirically validating ILQL, we present a detailed empirical analysis of situations where offline RL can be useful in natural language generation settings, demonstrating how it can be a more effective utility optimizer than prior approaches for end-to-end dialogue, and how it can effectively optimize high variance reward functions based on subjective judgement, such as whether to label a comment as an example of toxic speech or not.
Abstract（参考訳）: 大規模言語モデルはテキストコーパスから幅広い知識を抽出する。しかし、ユーザー特定タスクの完了に関しては一貫性がない場合がある。この問題は、キュレートされたデータセットの教師あり学習や強化学習を通じて、これらのモデルを微調整することで対処できる。本研究では,従来のRLアルゴリズムの柔軟なユーティリティ最適化フレームワークと,既存のデータを活用する教師あり学習能力と,そのシンプルさと安定性を組み合わせた,新しいオフラインRLモチベーション手法である暗黙的言語Q-ラーニング(ILQL)を提案する。動的プログラミングをベースとした本手法では,学習価値関数における暗黙的データセットサポート制約と並行して,値保存性のブレンドを用いて,言語モデル生成を実用性最大化に向けて導く。 ILQLの実証的検証に加えて、オフラインRLが自然言語生成設定において有用である場合の詳細な実証分析を行い、従来のエンドツーエンド対話のアプローチよりも効果的なユーティリティオプティマイザになり得るか、また、コメントを有害な音声の例としてラベル付けするかどうかなどの主観的判断に基づいて、高分散報酬関数を効果的に最適化できるかを示す。

関連論文リスト

ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文参考訳（メタデータ） (2024-06-27T01:37:57Z)
Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。 OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文参考訳（メタデータ） (2024-06-12T08:31:34Z)
CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文参考訳（メタデータ） (2024-05-28T00:08:29Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:38:29Z)
Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文参考訳（メタデータ） (2021-09-20T08:46:51Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。