論文の概要: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
- arxiv url: http://arxiv.org/abs/2311.10702v1
- Date: Fri, 17 Nov 2023 18:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 13:43:15.083112
- Title: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
- Title(参考訳): 気候変動におけるラクダ: tulu 2 による lm 適応強化
- Authors: Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert,
Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A. Smith, Iz
Beltagy, Hannaneh Hajishirzi
- Abstract要約: T"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応するための改良されたT"ULUモデルのスイートである。
T"ULU 2 スイートは、いくつかのベンチマークでGPT-3.5-turbo-0301の性能を上回る、オープンモデルとマッチ間の最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 105.07110545643782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the release of T\"ULU [Wang et al., 2023b], open resources for
instruction tuning have developed quickly, from better base models to new
finetuning techniques. We test and incorporate a number of these advances into
T\"ULU, resulting in T\"ULU 2, a suite of improved T\"ULU models for advancing
the understanding and best practices of adapting pretrained language models to
downstream tasks and user preferences. Concretely, we release: (1)
T\"ULU-V2-mix, an improved collection of high-quality instruction datasets; (2)
T\"ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\"ULU 2+DPO, T\"ULU
2 models trained with direct preference optimization (DPO), including the
largest DPO-trained model to date (T\"ULU 2+DPO 70B); (4) CODE T\"ULU 2, CODE
LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its
instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple
perspectives shows that the T\"ULU 2 suite achieves state-of-the-art
performance among open models and matches or exceeds the performance of
GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data,
training and evaluation code to facilitate future open efforts on adapting
large language models.
- Abstract(参考訳): T\"ULU [Wang et al., 2023b] のリリース以来, より優れたベースモデルから新しいファインタニング技術に至るまで, インストラクションチューニングのためのオープンリソースが急速に発展してきた。
T\"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応させるための理解とベストプラクティスを向上するための改良されたT\"ULUモデルである。
具体的には、(1) t\"ulu-v2-mix、(2) t\"ulu 2 llama-2 モデルを v2 混合で微調整した高品質な命令データセットの集合、(3) t\"ulu 2+dpo, t\"ulu 2 モデルを直接優先最適化(dpo)でトレーニングしたモデル(t\"ulu 2+dpo 70b)、(4) code t\"ulu 2 コード llama モデルは、llama と命令調整されたバージョンである code llama-instruct よりも優れています。
複数の視点からの評価から、t\"ulu 2スイートはオープンモデル間で最先端のパフォーマンスを達成し、いくつかのベンチマークでgpt-3.5-turbo-0301のパフォーマンスを上回った。
すべてのチェックポイント、データ、トレーニング、評価コードをリリースし、将来の大規模言語モデルへのオープンな取り組みを促進します。
関連論文リスト
- Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning [43.54069813039309]
我々は、事前訓練されたBLIP-2モデルに基づいて、視覚言語による指導のチューニングについて研究する。
InstructBLIPは、13のホールトアウトデータセットすべてにわたって、最先端のゼロショットパフォーマンスを実現する。
私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
論文 参考訳(メタデータ) (2023-05-11T00:38:10Z) - Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文 参考訳(メタデータ) (2023-05-05T17:59:46Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning [146.51221523793342]
LightPAFFは、2段階の知識蒸留を使用して、大きな教師モデルから軽量の学生モデルに知識を伝達する。
LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善する。
論文 参考訳(メタデータ) (2020-04-27T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。