論文の概要: BabyStories: Can Reinforcement Learning Teach Baby Language Models to
Write Better Stories?
- arxiv url: http://arxiv.org/abs/2310.16681v1
- Date: Wed, 25 Oct 2023 14:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:12:34.469121
- Title: BabyStories: Can Reinforcement Learning Teach Baby Language Models to
Write Better Stories?
- Title(参考訳): BabyStories: より優れたストーリーを書くために、Teach Baby Language Modelを学習できるか?
- Authors: Xingmeng Zhao, Tongnian Wang, Sheri Osborn, Anthony Rios
- Abstract要約: 本研究では,人間からのフィードバック(RLHF)による強化学習が,限られた学習コーパスを用いてゼロから事前学習した言語モデルに与える影響について検討した。
GPT-2を2種類比較すると、RLHFの微調整後のストーリーテリング作業において、より大きなモデルの方が優れている。
- 参考スコア(独自算出の注目度): 8.003346409136348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have seen significant growth in the size of their corpus,
leading to notable performance improvements. Yet, there has been limited
progress in developing models that handle smaller, more human-like datasets. As
part of the BabyLM shared task, this study explores the impact of reinforcement
learning from human feedback (RLHF) on language models pretrained from scratch
with a limited training corpus. Comparing two GPT-2 variants, the larger model
performs better in storytelling tasks after RLHF fine-tuning. These findings
suggest that RLHF techniques may be more advantageous for larger models due to
their higher learning and adaptation capacity, though more experiments are
needed to confirm this finding. These insights highlight the potential benefits
of RLHF fine-tuning for language models within limited data, enhancing their
ability to maintain narrative focus and coherence while adhering better to
initial instructions in storytelling tasks. The code for this work is publicly
at https://github.com/Zephyr1022/BabyStories-UTSA.
- Abstract(参考訳): 言語モデルは、コーパスのサイズが大幅に増加し、顕著なパフォーマンス改善につながった。
しかし、より小さく、より人間的なデータセットを扱うモデルの開発には、限られた進歩があった。
BabyLM共有タスクの一環として,人間からのフィードバック(RLHF)からの強化学習が,限定的な学習コーパスを用いてゼロから事前学習した言語モデルに与える影響について検討した。
GPT-2の2種類のモデルと比較すると、RLHF微調整後のストーリーテリング作業においてより優れた性能を発揮する。
これらの結果から,RLHF法は学習能力や適応能力が高いため,より大きなモデルに有利である可能性が示唆された。
これらの洞察は、限定されたデータ内の言語モデルのためのRLHF微調整の潜在的な利点を強調し、物語の焦点と一貫性を維持しながら、ストーリーテリングタスクにおける最初の指示に順応する能力を高める。
この作業のコードはhttps://github.com/Zephyr1022/BabyStories-UTSA.comで公開されている。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models [18.64902083536956]
適度に正確な報酬モデルで訓練された言語モデルは、高い精度で指導された言語よりも優れていることを示す。
このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-09T05:17:08Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models [3.1244568065126863]
より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
論文 参考訳(メタデータ) (2023-08-03T10:52:52Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。