論文の概要: Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.07792v1
- Date: Fri, 14 Oct 2022 13:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:33:33.578849
- Title: Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning
- Title(参考訳): コントラスト強化学習によるストーリーテリングのロバスト優先学習
- Authors: Louis Castricato, Alexander Havrilla, Shahbuland Matiana, Michael
Pieler, Anbang Ye, Ian Yang, Spencer Frazier and Mark Riedl
- Abstract要約: 制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
- 参考スコア(独自算出の注目度): 53.92465205531759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlled automated story generation seeks to generate natural language
stories satisfying constraints from natural language critiques or preferences.
Existing methods to control for story preference utilize prompt engineering
which is labor intensive and often inconsistent. They may also use
logit-manipulation methods which require annotated datasets to exist for the
desired attributes. To address these issues, we first train a contrastive
bi-encoder model to align stories with corresponding human critiques, named
CARP, building a general purpose preference model. This is subsequently used as
a reward function to fine-tune a generative language model via reinforcement
learning. However, simply fine-tuning a generative language model with a
contrastive reward model does not always reliably result in a story generation
system capable of generating stories that meet user preferences. To increase
story generation robustness we further fine-tune the contrastive reward model
using a prompt-learning technique. A human participant study is then conducted
comparing generations from our full system, ablations, and two baselines. We
show that the full fine-tuning pipeline results in a story generator preferred
over a LLM 20x as large as well as logit-based methods. This motivates the use
of contrastive learning for general purpose human preference modeling.
- Abstract(参考訳): 制御された自動ストーリー生成は、自然言語批判や好みから制約を満たす自然言語ストーリーを生成しようとする。
ストーリーの好みを制御する既存の方法は、労働集約的でしばしば一貫性のないプロンプトエンジニアリングを利用する。
また、所望の属性に対して注釈付きデータセットを必要とするロジット操作メソッドを使用することもできる。
これらの問題に対処するため、我々はまずコントラストのあるbi-encoderモデルを訓練し、ストーリーをcarpと呼ばれる人間の批判に対応するために汎用的な選好モデルを構築した。
これは後に強化学習を通じて生成言語モデルを微調整するための報酬関数として使用される。
しかし、対照的な報酬モデルで生成言語モデルを微調整するだけでは、常にユーザーの好みに合ったストーリーを生成できるストーリー生成システムが得られるとは限らない。
ストーリー生成の堅牢性を高めるために,プロンプトラーニング手法を用いて,コントラスト報酬モデルをさらに微調整する。
人間の参加者による研究は、全システム、アブレーション、および2つのベースラインからの世代を比較して行われます。
完全な微調整パイプラインは,LLM 20x よりも大きめのストーリージェネレータやロジットベースの手法よりも好まれることを示す。
これは、一般的な人間の嗜好モデリングのためのコントラスト学習の使用を動機付けている。
関連論文リスト
- Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Goal-Directed Story Generation: Augmenting Generative Language Models
with Reinforcement Learning [7.514717103747824]
本稿では,コンピュータ生成ストーリーのプロットを制御するために,深層強化学習と報酬形成を基礎とした2つの自動手法を提案する。
1つ目は、近似ポリシー最適化を利用して、既存のトランスフォーマーベースの言語モデルを微調整してテキスト継続を生成するが、目標探索も行う。
第2は、グラフを考慮したポリシーネットワークが使用する展開ストーリーから知識グラフを抽出し、言語モデルによって生成された候補継続を選択する。
論文 参考訳(メタデータ) (2021-12-16T03:34:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improving Language Generation with Sentence Coherence Objective [4.997730662279843]
既存のモデルは、与えられたプロンプトから徐々に分岐するテキストの段落を出力する傾向がある。
このプロジェクトの目的は、言語生成モデルにおける文間の一貫性と一貫性を改善することである。
論文 参考訳(メタデータ) (2020-09-07T06:10:03Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。