論文の概要: LIMA: Less Is More for Alignment
- arxiv url: http://arxiv.org/abs/2305.11206v1
- Date: Thu, 18 May 2023 17:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:48:42.232772
- Title: LIMA: Less Is More for Alignment
- Title(参考訳): LIMA:アライメントにはあまり役に立たない
- Authors: Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning
Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike
Lewis, Luke Zettlemoyer, Omer Levy
- Abstract要約: 65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
- 参考スコア(独自算出の注目度): 112.93890201395477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are trained in two stages: (1) unsupervised pretraining
from raw text, to learn general-purpose representations, and (2) large scale
instruction tuning and reinforcement learning, to better align to end tasks and
user preferences. We measure the relative importance of these two stages by
training LIMA, a 65B parameter LLaMa language model fine-tuned with the
standard supervised loss on only 1,000 carefully curated prompts and responses,
without any reinforcement learning or human preference modeling. LIMA
demonstrates remarkably strong performance, learning to follow specific
response formats from only a handful of examples in the training data,
including complex queries that range from planning trip itineraries to
speculating about alternate history. Moreover, the model tends to generalize
well to unseen tasks that did not appear in the training data. In a controlled
human study, responses from LIMA are either equivalent or strictly preferred to
GPT-4 in 43% of cases; this statistic is as high as 58% when compared to Bard
and 65% versus DaVinci003, which was trained with human feedback. Taken
together, these results strongly suggest that almost all knowledge in large
language models is learned during pretraining, and only limited instruction
tuning data is necessary to teach models to produce high quality output.
- Abstract(参考訳): 大規模言語モデルは,(1)原文からの教師なし事前学習,(2)汎用表現の学習,(2)大規模命令チューニングと強化学習,(2)エンドタスクとユーザの嗜好の整合性向上,の2段階で訓練される。
この2つのステージの相対的重要性を、強化学習や人間の嗜好モデリングを必要とせず、1000個の注意深くキュレートされたプロンプトとレスポンスで、標準的な教師付き損失に微調整された65bのパラメータラマ言語モデルであるlimaの訓練によって測定する。
limaは極めて強力なパフォーマンスを示しており、トレーニングデータのほんの一握りの例から、トリップイテナリの計画から代替履歴の推測まで、複雑なクエリまで、特定のレスポンス形式を学習している。
さらに、モデルはトレーニングデータに現れない未確認のタスクに対してうまく一般化する傾向がある。
制御されたヒトの研究では、limaからの反応は43%でgpt-4と同等か厳密に好ましいが、bardと比較して58%、人間のフィードバックで訓練されたdavinci003に対して65%である。
これらの結果から,大言語モデルにおける知識のほとんどすべてが事前学習中に学習されることが示唆され,高品質なアウトプットを生成するためにモデルを教えるためには限られた命令チューニングデータのみが必要である。
関連論文リスト
- InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Instruction Tuned Models are Quick Learners [20.771930945083994]
そこで本研究では,各種タスクにおける指導調律モデルのサンプル効率について述べる。
STL設定では、下流列車データの25%を備えた指導調律モデルが下流タスクのSOTA性能を上回っている。
MTL設定では、下流のトレーニングデータの6%しか訓練されていない指導調律モデルがSOTAを達成する一方で、100%のトレーニングデータを使用することで3.69%の改善が達成される。
論文 参考訳(メタデータ) (2023-05-17T22:30:01Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。