論文の概要: BabyStories: Can Reinforcement Learning Teach Baby Language Models to
Write Better Stories?
- arxiv url: http://arxiv.org/abs/2310.16681v1
- Date: Wed, 25 Oct 2023 14:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:12:34.469121
- Title: BabyStories: Can Reinforcement Learning Teach Baby Language Models to
Write Better Stories?
- Title(参考訳): BabyStories: より優れたストーリーを書くために、Teach Baby Language Modelを学習できるか?
- Authors: Xingmeng Zhao, Tongnian Wang, Sheri Osborn, Anthony Rios
- Abstract要約: 本研究では,人間からのフィードバック(RLHF)による強化学習が,限られた学習コーパスを用いてゼロから事前学習した言語モデルに与える影響について検討した。
GPT-2を2種類比較すると、RLHFの微調整後のストーリーテリング作業において、より大きなモデルの方が優れている。
- 参考スコア(独自算出の注目度): 8.003346409136348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have seen significant growth in the size of their corpus,
leading to notable performance improvements. Yet, there has been limited
progress in developing models that handle smaller, more human-like datasets. As
part of the BabyLM shared task, this study explores the impact of reinforcement
learning from human feedback (RLHF) on language models pretrained from scratch
with a limited training corpus. Comparing two GPT-2 variants, the larger model
performs better in storytelling tasks after RLHF fine-tuning. These findings
suggest that RLHF techniques may be more advantageous for larger models due to
their higher learning and adaptation capacity, though more experiments are
needed to confirm this finding. These insights highlight the potential benefits
of RLHF fine-tuning for language models within limited data, enhancing their
ability to maintain narrative focus and coherence while adhering better to
initial instructions in storytelling tasks. The code for this work is publicly
at https://github.com/Zephyr1022/BabyStories-UTSA.
- Abstract(参考訳): 言語モデルは、コーパスのサイズが大幅に増加し、顕著なパフォーマンス改善につながった。
しかし、より小さく、より人間的なデータセットを扱うモデルの開発には、限られた進歩があった。
BabyLM共有タスクの一環として,人間からのフィードバック(RLHF)からの強化学習が,限定的な学習コーパスを用いてゼロから事前学習した言語モデルに与える影響について検討した。
GPT-2の2種類のモデルと比較すると、RLHF微調整後のストーリーテリング作業においてより優れた性能を発揮する。
これらの結果から,RLHF法は学習能力や適応能力が高いため,より大きなモデルに有利である可能性が示唆された。
これらの洞察は、限定されたデータ内の言語モデルのためのRLHF微調整の潜在的な利点を強調し、物語の焦点と一貫性を維持しながら、ストーリーテリングタスクにおける最初の指示に順応する能力を高める。
この作業のコードはhttps://github.com/Zephyr1022/BabyStories-UTSA.comで公開されている。
関連論文リスト
- PERL: Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の好みを結びつける強力な手法であることが証明されている。
本稿では,Huらによって導入されたLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。
PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - Can training neural language models on a curriculum with developmentally
plausible data improve alignment with human reading behavior? [0.2745342790938508]
本稿では,より発達的に妥当なデータを用いたモデル学習により,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。
我々は,BabyLMの「限定小」データセットを用いて教師言語モデルを訓練し,これらの教師モデルからの文レベル推定を用いてカリキュラムの作成を行った。
モデルが学習データから言語知識を習得し易いという仮の証拠が得られた。
論文 参考訳(メタデータ) (2023-11-30T18:03:58Z) - Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models [3.1244568065126863]
より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
論文 参考訳(メタデータ) (2023-08-03T10:52:52Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。