論文の概要: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
- arxiv url: http://arxiv.org/abs/2311.10702v2
- Date: Mon, 20 Nov 2023 02:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 14:36:17.218270
- Title: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
- Title(参考訳): 気候変動におけるラクダ: tulu 2 による lm 適応強化
- Authors: Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert,
Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A. Smith, Iz
Beltagy, Hannaneh Hajishirzi
- Abstract要約: T"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応するための改良されたT"ULUモデルのスイートである。
T"ULU 2 スイートは、いくつかのベンチマークでGPT-3.5-turbo-0301の性能を上回る、オープンモデルとマッチ間の最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 105.07110545643782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the release of T\"ULU [Wang et al., 2023b], open resources for
instruction tuning have developed quickly, from better base models to new
finetuning techniques. We test and incorporate a number of these advances into
T\"ULU, resulting in T\"ULU 2, a suite of improved T\"ULU models for advancing
the understanding and best practices of adapting pretrained language models to
downstream tasks and user preferences. Concretely, we release: (1)
T\"ULU-V2-mix, an improved collection of high-quality instruction datasets; (2)
T\"ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\"ULU 2+DPO, T\"ULU
2 models trained with direct preference optimization (DPO), including the
largest DPO-trained model to date (T\"ULU 2+DPO 70B); (4) CODE T\"ULU 2, CODE
LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its
instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple
perspectives shows that the T\"ULU 2 suite achieves state-of-the-art
performance among open models and matches or exceeds the performance of
GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data,
training and evaluation code to facilitate future open efforts on adapting
large language models.
- Abstract(参考訳): T\"ULU [Wang et al., 2023b] のリリース以来, より優れたベースモデルから新しいファインタニング技術に至るまで, インストラクションチューニングのためのオープンリソースが急速に発展してきた。
T\"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応させるための理解とベストプラクティスを向上するための改良されたT\"ULUモデルである。
具体的には、(1) t\"ulu-v2-mix、(2) t\"ulu 2 llama-2 モデルを v2 混合で微調整した高品質な命令データセットの集合、(3) t\"ulu 2+dpo, t\"ulu 2 モデルを直接優先最適化(dpo)でトレーニングしたモデル(t\"ulu 2+dpo 70b)、(4) code t\"ulu 2 コード llama モデルは、llama と命令調整されたバージョンである code llama-instruct よりも優れています。
複数の視点からの評価から、t\"ulu 2スイートはオープンモデル間で最先端のパフォーマンスを達成し、いくつかのベンチマークでgpt-3.5-turbo-0301のパフォーマンスを上回った。
すべてのチェックポイント、データ、トレーニング、評価コードをリリースし、将来の大規模言語モデルへのオープンな取り組みを促進します。
関連論文リスト
- TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。
T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (2024-11-22T18:44:04Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - LIONs: An Empirically Optimized Approach to Align Language Models [31.225180404295536]
教師付き微調整,オフライン選好学習,オンライン選好学習からなる3段階学習パイプライン上で厳密な分析を行う。
我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。
論文 参考訳(メタデータ) (2024-07-09T04:34:39Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文 参考訳(メタデータ) (2023-05-05T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。