Fugu-MT 論文翻訳(概要): Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

論文の概要: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

arxiv url: http://arxiv.org/abs/2311.10702v1
Date: Fri, 17 Nov 2023 18:45:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-20 13:43:15.083112
Title: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
Title（参考訳）: 気候変動におけるラクダ: tulu 2 による lm 適応強化
Authors: Hamish Ivison, Yizhong Wang, Valentina Pyatkin, Nathan Lambert, Matthew Peters, Pradeep Dasigi, Joel Jang, David Wadden, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
Abstract要約: T"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応するための改良されたT"ULUモデルのスイートである。 T"ULU 2 スイートは、いくつかのベンチマークでGPT-3.5-turbo-0301の性能を上回る、オープンモデルとマッチ間の最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 105.07110545643782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since the release of T\"ULU [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into T\"ULU, resulting in T\"ULU 2, a suite of improved T\"ULU models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) T\"ULU-V2-mix, an improved collection of high-quality instruction datasets; (2) T\"ULU 2, LLAMA-2 models finetuned on the V2 mixture; (3) T\"ULU 2+DPO, T\"ULU 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (T\"ULU 2+DPO 70B); (4) CODE T\"ULU 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the T\"ULU 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.
Abstract（参考訳）: T\"ULU [Wang et al., 2023b] のリリース以来, より優れたベースモデルから新しいファインタニング技術に至るまで, インストラクションチューニングのためのオープンリソースが急速に発展してきた。 T\"ULU 2は、訓練済みの言語モデルを下流のタスクやユーザの好みに適応させるための理解とベストプラクティスを向上するための改良されたT\"ULUモデルである。具体的には、(1) t\"ulu-v2-mix、(2) t\"ulu 2 llama-2 モデルを v2 混合で微調整した高品質な命令データセットの集合、(3) t\"ulu 2+dpo, t\"ulu 2 モデルを直接優先最適化(dpo)でトレーニングしたモデル(t\"ulu 2+dpo 70b)、(4) code t\"ulu 2 コード llama モデルは、llama と命令調整されたバージョンである code llama-instruct よりも優れています。複数の視点からの評価から、t\"ulu 2スイートはオープンモデル間で最先端のパフォーマンスを達成し、いくつかのベンチマークでgpt-3.5-turbo-0301のパフォーマンスを上回った。すべてのチェックポイント、データ、トレーニング、評価コードをリリースし、将来の大規模言語モデルへのオープンな取り組みを促進します。

関連論文リスト

DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models [9.800887055353096]
本稿では,T2Iモデルの複雑な命令の理解と実行を強化するフレームワークであるDeCoT(Decomposition-CoT)を提案する。 LongBench-T2Iデータセットの大規模な実験は、DeCoTが一貫し、主要なT2Iモデルの性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-08-17T15:15:39Z)
Shadow-FT: Tuning Instruct Model via Training on Paired Base Model [67.20706292627106]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文参考訳（メタデータ） (2025-05-19T05:16:21Z)
TESS 2: A Large-Scale Generalist Diffusion Language Model [24.91689676432666]
TESS 2は命令追従拡散言語モデルであり、命令追従拡散モデルより優れている。適応学習とベースモデルの選択は,優れた指示追従拡散モデルの訓練に不可欠であることがわかった。モデル出力の調整を基礎となるモデルのトレーニングを必要とせずに行うための,新しい,モジュール型の推論時ガイダンス手法である報奨ガイダンスを提案する。
論文参考訳（メタデータ） (2025-02-19T17:50:31Z)
2 OLMo 2 Furious [126.72656187302502]
OLMo 2には、アーキテクチャとトレーニングのレシピを改善した密集した自己回帰モデルが含まれている。我々の最新の事前学習データミックスは、Dolmino Mix 1124と呼ばれる新しい特殊なデータミックスを導入しました。完全にオープンなOLMo 2-Instructモデルは、同等の大きさのオープンウェイトモデルに匹敵するか、上回っている。
論文参考訳（メタデータ） (2024-12-31T21:55:10Z)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。 T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文参考訳（メタデータ） (2024-10-23T16:42:56Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文参考訳（メタデータ） (2024-09-18T17:59:32Z)
LIONs: An Empirically Optimized Approach to Align Language Models [31.225180404295536]
教師付き微調整,オフライン選好学習,オンライン選好学習からなる3段階学習パイプライン上で厳密な分析を行う。我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。
論文参考訳（メタデータ） (2024-07-09T04:34:39Z)
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文参考訳（メタデータ） (2024-05-27T17:59:45Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文参考訳（メタデータ） (2023-05-05T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。