論文の概要: Language Model Self-improvement by Reinforcement Learning Contemplation
- arxiv url: http://arxiv.org/abs/2305.14483v1
- Date: Tue, 23 May 2023 19:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:45:51.504741
- Title: Language Model Self-improvement by Reinforcement Learning Contemplation
- Title(参考訳): 強化学習による言語モデル自己改善
- Authors: Jing-Cheng Pang, Pengyuan Wang, Kaiyuan Li, Xiong-Hui Chen, Jiacheng
Xu, Zongzhang Zhang, and Yang Yu
- Abstract要約: 本稿では,LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) という,教師なしの新しい手法を提案する。
学生として、モデルはラベルのない質問に対する回答を生成し、教師として、生成されたテキストを評価し、それに応じてスコアを割り当てる。
我々は,SIRLCを推論問題,テキスト生成,機械翻訳など,様々なNLPタスクに適用できることを実証した。
- 参考スコア(独自算出の注目度): 13.152789365858812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable performance across
various natural language processing (NLP) tasks. However, fine-tuning these
models often necessitates substantial supervision, which can be expensive and
time-consuming to obtain. This paper introduces a novel unsupervised method
called LanguageModel Self-Improvement by Reinforcement Learning Contemplation
(SIRLC) that improves LLMs without reliance on external labels. Our approach is
grounded in the observation that it is simpler for language models to assess
text quality than to generate text. Building on this insight, SIRLC assigns
LLMs dual roles as both student and teacher. As a student, the LLM generates
answers to unlabeled questions, while as a teacher, it evaluates the generated
text and assigns scores accordingly. The model parameters are updated using
reinforcement learning to maximize the evaluation score. We demonstrate that
SIRLC can be applied to various NLP tasks, such as reasoning problems, text
generation, and machine translation. Our experiments show that SIRLC
effectively improves LLM performance without external supervision, resulting in
a 5.6% increase in answering accuracy for reasoning tasks and a rise in
BERTScore from 0.82 to 0.86 for translation tasks. Furthermore, SIRLC can be
applied to models of different sizes, showcasing its broad applicability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、これらのモデルの微調整は、しばしばかなりの監督を必要とするため、高価で入手に時間がかかる。
本稿では,LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) という,外部ラベルに依存することなくLCMを改善する手法を提案する。
我々のアプローチは、言語モデルではテキスト生成よりもテキストの品質を評価する方が簡単である、という観察に基づいている。
この知見に基づいて、SIRLCはLLMを学生と教師の両方の役割として割り当てる。
学生として、llmはラベルのない質問に対する回答を生成し、教師は生成されたテキストを評価し、それに応じてスコアを割り当てる。
モデルパラメータは強化学習を用いて更新され、評価スコアを最大化する。
SIRLCは推論問題やテキスト生成,機械翻訳など,さまざまなNLPタスクに適用可能であることを示す。
実験の結果,SIRLCは外部監視なしでLLM性能を効果的に向上し,推理タスクの解答精度は5.6%向上し,翻訳タスクのBERTScoreは0.82から0.86に向上した。
さらに、silcは様々なサイズのモデルに適用でき、その幅広い適用性を示す。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。