論文の概要: NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment
- arxiv url: http://arxiv.org/abs/2405.01481v2
- Date: Tue, 3 Sep 2024 05:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:30:43.177739
- Title: NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment
- Title(参考訳): NeMo-Aligner: 効率的なモデルアライメントのためのスケーラブルなツールキット
- Authors: Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong, Daniel Egert, Shengyang Sun, Jimmy Zhang, Sahil Jain, Ali Taghibakhshi, Markel Sanz Ausin, Ashwath Aithal, Oleksii Kuchaiev,
- Abstract要約: NeMo-Alignerはモデルアライメントのためのツールキットである。
最大のオープンソースLLMをトレーニングするために、効率よく1000GPUまでスケールすることができる。
NeMo-AlignerはApache 2.0ライセンスでオープンソース化されている。
- 参考スコア(独自算出の注目度): 11.273592932628185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with human values and preferences is essential for making them helpful and safe. However, building efficient tools to perform alignment can be challenging, especially for the largest and most competent LLMs which often contain tens or hundreds of billions of parameters. We create NeMo-Aligner, a toolkit for model alignment that can efficiently scale to a thousand GPUs for training the largest open-source LLMs such as Nemotron 4 340B and Llama 3.1 405B. NeMo-Aligner comes with highly optimized and scalable implementations for major paradigms of model alignment such as: Reinforcement Learning from Human Feedback (RLHF), Direct Preference Optimization (DPO), SteerLM, and Self-Play Fine-Tuning (SPIN). Additionally, our toolkit supports running most of the alignment techniques in a Parameter Efficient Fine-Tuning (PEFT) setting. NeMo-Aligner is designed for extensibility, allowing support for other alignment techniques with minimal effort. It is open-sourced with Apache 2.0 License and we invite community contributions at https://github.com/NVIDIA/NeMo-Aligner
- Abstract(参考訳): 大規模言語モデル(LLM)を人的価値と好みで調整することは、それらを有用かつ安全にするために不可欠である。
しかし、アライメントを行うための効率的なツールの構築は困難であり、特に数十億から数百億のパラメータを含む最大かつ最も有能なLLMでは困難である。
NeMo-Alignerは,Nemotron 4 340BやLlama 3.1 405Bなど,最大のオープンソースLLMをトレーニングするために,1,000GPUまで効率的にスケール可能な,モデルアライメント用ツールキットである。
NeMo-Alignerには、Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN)など、モデルアライメントの主要なパラダイムに対する高度に最適化されたスケーラブルな実装が付属している。
さらに,本ツールキットは,パラメータ・エフェクト・ファイン・チューニング(PEFT)設定におけるアライメント技術の大部分の実行をサポートする。
NeMo-Alignerは拡張性のために設計されており、最小限の労力で他のアライメント技術をサポートすることができる。
Apache 2.0 Licenseでオープンソース化されており、コミュニティからのコントリビューションをhttps://github.com/NVIDIA/NeMo-Alignerで募集しています。
関連論文リスト
- MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch [19.499639344055275]
機械学習では、多目的最適化問題(MOP)が一般的である。
本稿では,最先端勾配法をサポートする初の多目的最適化ライブラリであるLibMOONを紹介する。
論文 参考訳(メタデータ) (2024-09-04T07:44:43Z) - Patched MOA: optimizing inference for diverse software development tasks [1.14219428942199]
本稿では,大規模言語モデル(LLM)の性能を大幅に向上させる推論最適化手法であるPatched MOAを紹介する。
我々は3つの推論最適化アルゴリズム、Best of N、Mixture of Agents、Monte Carlo Tree Searchを評価した。
Patched MOAはより小型のモデルの性能を高め、より大型で高価なモデルを上回ることを実証しています。
論文 参考訳(メタデータ) (2024-07-26T05:34:34Z) - Aligner: One Global Token is Worth Millions of Parameters When Aligning
Large Language Models [72.26732961610557]
私たちは小説『アリグナー』を紹介します。
マルチビリオンパラメータサイズ大言語モデル(LLM)の整列のためのPEFT法
Alignerは、数百万のパラメータを必要とするLoRAのような最先端のLLM適応手法に対して、相容れない性能を保てることを示す。
論文 参考訳(メタデータ) (2023-12-09T08:25:55Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models [31.121714473817793]
ファンデーションモデルは、従来のアプローチをはるかに超越した、一般的な人間レベルのインテリジェンスを達成するための優れた能力を示してきた。
ほとんどの基礎モデルの重大な欠点は、特殊ドメインやタスク固有のアプリケーションのパフォーマンスにある。
本稿では,一般基礎モデルのドメイン・タスク・アウェア・ファインタニングを簡略化することを目的としたLMFlowを紹介する。
論文 参考訳(メタデータ) (2023-06-21T17:58:25Z) - GPT4Tools: Teaching Large Language Model to Use Tools via
Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。
先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文 参考訳(メタデータ) (2023-05-30T05:27:21Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。