論文の概要: NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment
- arxiv url: http://arxiv.org/abs/2405.01481v2
- Date: Tue, 3 Sep 2024 05:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:30:43.177739
- Title: NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment
- Title(参考訳): NeMo-Aligner: 効率的なモデルアライメントのためのスケーラブルなツールキット
- Authors: Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev,
- Abstract要約: NeMo-Alignerはモデルアライメントのためのツールキットである。
最大のオープンソースLLMをトレーニングするために、効率よく1000GPUまでスケールすることができる。
NeMo-AlignerはApache 2.0ライセンスでオープンソース化されている。
- 参考スコア(独自算出の注目度): 11.273592932628185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with human values and preferences is essential for making them helpful and safe. However, building efficient tools to perform alignment can be challenging, especially for the largest and most competent LLMs which often contain tens or hundreds of billions of parameters. We create NeMo-Aligner, a toolkit for model alignment that can efficiently scale to a thousand GPUs for training the largest open-source LLMs such as Nemotron 4 340B and Llama 3.1 405B. NeMo-Aligner comes with highly optimized and scalable implementations for major paradigms of model alignment such as: Reinforcement Learning from Human Feedback (RLHF), Direct Preference Optimization (DPO), SteerLM, and Self-Play Fine-Tuning (SPIN). Additionally, our toolkit supports running most of the alignment techniques in a Parameter Efficient Fine-Tuning (PEFT) setting. NeMo-Aligner is designed for extensibility, allowing support for other alignment techniques with minimal effort. It is open-sourced with Apache 2.0 License and we invite community contributions at https://github.com/NVIDIA/NeMo-Aligner
- Abstract(参考訳): 大規模言語モデル(LLM)を人的価値と好みで調整することは、それらを有用かつ安全にするために不可欠である。
しかし、アライメントを行うための効率的なツールの構築は困難であり、特に数十億から数百億のパラメータを含む最大かつ最も有能なLLMでは困難である。
NeMo-Alignerは,Nemotron 4 340BやLlama 3.1 405Bなど,最大のオープンソースLLMをトレーニングするために,1,000GPUまで効率的にスケール可能な,モデルアライメント用ツールキットである。
NeMo-Alignerには、Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN)など、モデルアライメントの主要なパラダイムに対する高度に最適化されたスケーラブルな実装が付属している。
さらに,本ツールキットは,パラメータ・エフェクト・ファイン・チューニング(PEFT)設定におけるアライメント技術の大部分の実行をサポートする。
NeMo-Alignerは拡張性のために設計されており、最小限の労力で他のアライメント技術をサポートすることができる。
Apache 2.0 Licenseでオープンソース化されており、コミュニティからのコントリビューションをhttps://github.com/NVIDIA/NeMo-Alignerで募集しています。
関連論文リスト
- Fast Optimizer Benchmark [34.80019300616218]
本稿では,Fast Benchmark(FOB)について紹介する。
このベンチマークは、コンピュータビジョン、自然言語処理、グラフ学習などの複数のドメインからのタスクをサポートする。
モジュール化された設計は、単にタスクのコレクションとして使うだけで、カスタムパイプラインへの統合を可能にする。
論文 参考訳(メタデータ) (2024-06-26T19:10:34Z) - Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs [40.159064885288245]
言語モデルプログラム、すなわちモジュール型言語モデル(LM)コールの洗練されたパイプラインは、ますますNLPタスクを進化させつつある。
本研究では,モジュールレベルのラベルや勾配を使わずに,下流のメトリクスを最大化するためのLMプログラムの迅速な最適化について検討する。
MIPROは,最良クラスのオープンソースモデルを用いて,6種類のLMプログラムのうち5つのベースラインを上回り,その性能を向上する。
論文 参考訳(メタデータ) (2024-06-17T16:12:03Z) - Allo: A Programming Model for Composable Accelerator Design [7.884541004161727]
本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。
Alloは、計算、メモリ、通信、データタイプなど、ハードウェアのカスタマイズをアルゴリズム仕様から切り離している。
評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-07T05:47:54Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models [31.121714473817793]
ファンデーションモデルは、従来のアプローチをはるかに超越した、一般的な人間レベルのインテリジェンスを達成するための優れた能力を示してきた。
ほとんどの基礎モデルの重大な欠点は、特殊ドメインやタスク固有のアプリケーションのパフォーマンスにある。
本稿では,一般基礎モデルのドメイン・タスク・アウェア・ファインタニングを簡略化することを目的としたLMFlowを紹介する。
論文 参考訳(メタデータ) (2023-06-21T17:58:25Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。