論文の概要: Latent Distance Guided Alignment Training for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.06390v1
- Date: Tue, 9 Apr 2024 15:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:11:18.467356
- Title: Latent Distance Guided Alignment Training for Large Language Models
- Title(参考訳): 大規模言語モデルのための潜在距離誘導アライメント訓練
- Authors: Haotian Luo, Wenhao Zheng, Huaxiu Yao,
- Abstract要約: 外部アノテーションを頼らずにアライメントの改善を追求するために,潜在距離ガイドアライメントトレーニング(LD-Align)を導入する。
このアプローチは、潜在空間からのガイダンスを用いて、高品質な教師付き微調整データセットとモデルを整合させる。
我々は,DPOに基づくアライメントトレーニングを誘導するために,潜時空間におけるサンプルペア間の距離を利用する。
- 参考スコア(独自算出の注目度): 17.30017013115301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring alignment with human preferences is a crucial characteristic of large language models (LLMs). Presently, the primary alignment methods, RLHF and DPO, require extensive human annotation, which is expensive despite their efficacy. The significant expenses associated with current alignment techniques motivate researchers to investigate the development of annotation-free alignment training methods. In pursuit of improved alignment without relying on external annotation, we introduce Latent Distance Guided Alignment Training (LD-Align). This approach seeks to align the model with a high-quality supervised fine-tune dataset using guidance from a latent space. The latent space is generated through sample reconstruction, akin to auto-encoding. Consequently, we utilize the distance between sample pairs in the latent space to guide DPO-based alignment training. Extensive experimentation and evaluation show the efficacy of our proposed method in achieving notable alignment.
- Abstract(参考訳): 人間の好みとの整合性を確保することは、大きな言語モデル(LLM)の重要な特徴である。
現在、主要なアライメント手法であるRLHFとDPOは、その有効性にもかかわらず高価である広範囲な人間のアノテーションを必要とする。
現在のアライメント技術に関連するかなりの費用は、研究者にアノテーションのないアライメントトレーニング手法の開発を動機付けている。
外部アノテーションを頼らずにアライメントの改善を追求するため,LD-Align(Latent Distance Guided Alignment Training)を導入する。
このアプローチは、潜在空間からのガイダンスを用いて、高品質な教師付き微調整データセットとモデルを整合させる。
潜伏空間は、自動エンコーディングに似たサンプル再構成によって生成される。
そこで我々は,DPOに基づくアライメントトレーニングを誘導するために,潜時空間におけるサンプルペア間の距離を利用する。
大規模な実験と評価は,本手法が顕著なアライメントを実現する上で有効であることを示す。
関連論文リスト
- SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Revisiting Deep Subspace Alignment for Unsupervised Domain Adaptation [42.16718847243166]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送と適応を目的としている。
伝統的に、部分空間に基づく手法はこの問題に対する重要な解のクラスを形成する。
本稿では,UDAにおける部分空間アライメントの利用を再検討し,一貫した一般化をもたらす新しい適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-05T20:16:38Z) - High-Dimensional Bayesian Optimisation with Variational Autoencoders and
Deep Metric Learning [119.91679702854499]
本研究では,高次元の入力空間上でベイズ最適化を行うためのディープ・メトリック・ラーニングに基づく手法を提案する。
このような帰納バイアスを、利用可能なラベル付きデータの1%だけを用いて達成する。
実証的な貢献として、実世界の高次元ブラックボックス最適化問題に対する最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-07T13:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。