論文の概要: Aligners: Decoupling LLMs and Alignment
- arxiv url: http://arxiv.org/abs/2403.04224v2
- Date: Mon, 11 Mar 2024 07:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:31:50.485646
- Title: Aligners: Decoupling LLMs and Alignment
- Title(参考訳): Aligners: LLMとアライメントの分離
- Authors: Lilian Ngweta, Mayank Agarwal, Subha Maity, Alex Gittens, Yuekai Sun,
Mikhail Yurochkin
- Abstract要約: 大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。
そこで本稿では,LLM とアライメントを,任意の基準をアライメントするためのアライメントモデルのトレーニングによって分離することを提案する。
- 参考スコア(独自算出の注目度): 49.8019652005368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) need to be aligned with human expectations to
ensure their safety and utility in most applications. Alignment is challenging,
costly, and needs to be repeated for every LLM and alignment criterion. We
propose to decouple LLMs and alignment by training aligner models that can be
used to align any LLM for a given criteria on an as-needed basis, thus also
reducing the potential negative impacts of alignment on performance. Our recipe
for training the aligner models solely relies on synthetic data generated with
a (prompted) LLM and can be easily adjusted for a variety of alignment
criteria. We illustrate our method by training an "ethical" aligner and verify
its efficacy empirically.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。
アライメントは困難でコストがかかり、すべてのLCMとアライメント基準を繰り返す必要があります。
そこで本稿では,LLM とアライメントをトレーニングアライメントモデルによって分離し,任意の基準をアライメントすることで,アライメントがパフォーマンスに与える影響を低減することを提案する。
リライナーモデルをトレーニングするためのレシピは、(入力された)llmで生成された合成データのみに依存しており、様々なアライメント基準に容易に調整することができます。
本手法を「倫理的」なライナーを訓練し,その効果を実証的に検証する。
関連論文リスト
- Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2024-03-19T14:44:45Z) - Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop [8.159685593135407]
例えば、バイアス、矛盾、幻覚などがある。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
論文 参考訳(メタデータ) (2024-02-14T17:49:31Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。