論文の概要: Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs
without Fine-tuning
- arxiv url: http://arxiv.org/abs/2305.15065v1
- Date: Wed, 24 May 2023 11:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:17:06.248674
- Title: Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs
without Fine-tuning
- Title(参考訳): 推論時間ポリシーアダプタ(ipa) : 微調整なしで超大規模lmsを調整
- Authors: Ximing Lu, Faeze Brahman, Peter West, Jaehun Jang, Khyathi Chandu,
Abhilasha Ravichander, Lianhui Qin, Prithviraj Ammanabrolu, Liwei Jiang,
Sahana Ramnath, Nouha Dziri, Jillian Fisher, Bill Yuchen Lin, Skyler
Hallinan, Xiang Ren, Sean Welleck, Yejin Choi
- Abstract要約: Inference-time Policy Adapters (IPA) を提案する。
IPAは、任意のユーザ目標を最適化するように訓練された軽量ポリシーアダプタを通じて、デコード中の大きなベースモデルをガイドする。
既製の言語モデルよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 68.57635132292086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at a variety of language tasks when prompted with
examples or instructions. Yet controlling these models through prompting alone
is limited. Tailoring language models through fine-tuning (e.g., via
reinforcement learning) can be effective, but it is expensive and requires
model access.
We propose Inference-time Policy Adapters (IPA), which efficiently tailors a
language model such as GPT-3 without fine-tuning it. IPA guides a large base
model during decoding time through a lightweight policy adaptor trained to
optimize an arbitrary user objective with reinforcement learning.
On five challenging text generation tasks, such as toxicity reduction and
open-domain generation, IPA consistently brings significant improvements over
off-the-shelf language models. It outperforms competitive baseline methods,
sometimes even including expensive fine-tuning. In particular, tailoring GPT-2
with IPA can outperform GPT-3, while tailoring GPT- 3 with IPA brings a major
performance boost over GPT-3 (and sometimes even over GPT-4). Our promising
results highlight the potential of IPA as a lightweight alternative to
tailoring extreme-scale language models.
- Abstract(参考訳): 大規模な言語モデルは、例や指示によって促される様々な言語タスクに優れている。
しかし、これらのモデルをプロンプトだけで制御することは限られている。
言語モデルの微調整(強化学習など)は効果的であるが、高価であり、モデルアクセスを必要とする。
本稿では、gpt-3などの言語モデルを微調整することなく効率的に調整する推論時間ポリシーアダプタ(ipa)を提案する。
IPAは、拡張学習によって任意のユーザ目標を最適化するように訓練された軽量ポリシーアダプタを通じて、デコーディング時間中に大きなベースモデルをガイドする。
毒性低減やオープンドメイン生成といった5つの困難なテキスト生成タスクにおいて、IPAは、既製の言語モデルよりも大幅に改善されている。
競争力のあるベースライン法よりも優れており、時には高価な微調整も行う。
特に、GPT-2をIPAで調整することはGPT-3より優れているが、GPT-3をIPAで調整することは、GPT-3よりも大きなパフォーマンス向上をもたらす。
我々の有望な結果は、極規模の言語モデルをカスタマイズする軽量な代替手段としてのIPAの可能性を強調します。
関連論文リスト
- Gpt-4: A Review on Advancements and Opportunities in Natural Language
Processing [0.0]
Generative Pre-trained Transformer 4 (GPT-4) は、OpenAIが開発したGPTシリーズの第4世代言語モデルである。
GPT-4は、GPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
論文 参考訳(メタデータ) (2023-05-04T22:46:43Z) - Explicit Planning Helps Language Models in Logical Reasoning [39.27163698914806]
言語モデルを用いて多段階論理推論を行う新しいシステムLEAPを提案する。
明示的な計画によって、システムは各ステップでより深い推論決定を行うことができる。
我々のシステムは、複数の標準データセット上で競合する他の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-28T03:55:03Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Improving Short Text Classification With Augmented Data Using GPT-3 [0.0]
GPT-3はOpenAIが開発した大規模自然言語モデルである。
本研究は, GPT-3を用いて, 質問がデータサイエンスに関係しているかどうかを, 追加例で小さなトレーニングセットを増補することにより分類する。
拡張コンプリートは80%以上の精度を達成できるが、拡張分類を用いることで、目に見えない例ではより一貫した精度が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-23T01:10:38Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z) - Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition [14.82259273703819]
自動音声認識(ASR)のための微調整GPT, GPT-2とその組み合わせを用いた結果を提案する。
双方向のLM出力に基づいて、正しい言語事前確率を計算するための変換法を提案する。
提案された言語事前確率の変換により、BERT は 3% の相対 WERR を受信できる。
論文 参考訳(メタデータ) (2021-07-29T16:53:37Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。