論文の概要: SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks
- arxiv url: http://arxiv.org/abs/2410.05102v1
- Date: Tue, 8 Oct 2024 15:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:18:32.958771
- Title: SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks
- Title(参考訳): スパースPO:スパーストークンマスクによるLCMの優先度アライメント制御
- Authors: Fenia Christopoulou, Ronald Cardenas, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang,
- Abstract要約: そこで本稿では,優先最適化トレーニングにおいて,各トークンに対応するKL分散と報酬の重み付けを自動的に学習する,フレキシブルな目標SparsePOを提案する。
提案手法では,目標タスクに応じて有意な重み付けを割り当て,所望の好みに応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。
- 参考スコア(独自算出の注目度): 13.600674179059238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference Optimization (PO) has proven an effective step for aligning language models to human-desired behaviors. Current variants, following the offline Direct Preference Optimization objective, have focused on a strict setting where all tokens are contributing signals of KL divergence and rewards to the loss function. However, human preference is not affected by each word in a sequence equally but is often dependent on specific words or phrases, e.g. existence of toxic terms leads to non-preferred responses. Based on this observation, we argue that not all tokens should be weighted equally during PO and propose a flexible objective termed SparsePO, that aims to automatically learn to weight the KL divergence and reward corresponding to each token during PO training. We propose two different variants of weight-masks that can either be derived from the reference model itself or learned on the fly. Notably, our method induces sparsity in the learned masks, allowing the model to learn how to best weight reward and KL divergence contributions at the token level, learning an optimal level of mask sparsity. Extensive experiments on multiple domains, including sentiment control, dialogue, text summarization and text-to-code generation, illustrate that our approach assigns meaningful weights to tokens according to the target task, generates more responses with the desired preference and improves reasoning tasks by up to 2 percentage points compared to other token- and response-level PO methods.
- Abstract(参考訳): 優先度最適化(PO)は、言語モデルと人間の望ましい振る舞いを整合させる効果的なステップであることが証明されている。
現在の変種は、オフラインのダイレクトパラメータ最適化の目的に従って、すべてのトークンがKLの発散と損失関数への報酬のシグナルに寄与する厳密な設定に重点を置いている。
しかしながら、ヒトの嗜好は、各単語の順序に等しく影響されないが、しばしば特定の単語やフレーズに依存し、例えば有毒な単語の存在は、好ましくない反応をもたらす。
この観察から,全てのトークンをPO中に均等に重み付けすべきではなく,POトレーニング中に各トークンに対応するKL分散と報酬を自動的に重み付けすることを目的として,SparsePOと呼ばれるフレキシブルな目標を提案する。
本稿では,参照モデル自体から導出するか,あるいはハエで学習できる2種類のウェイトマスクを提案する。
特に,本手法は,学習したマスクの疎度を誘導し,トークンレベルでのベストウェイト報酬とKL分散コントリビューションを学習し,最適なマスク疎度レベルを学習する。
感情制御,対話,テキスト要約,テキスト・ツー・コード生成など,多分野にわたる広範な実験により,本手法は,目標タスクに応じて有意な重み付けを割り当て,所望の嗜好に応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。
関連論文リスト
- Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback [24.4488286574098]
人間のフィードバックからの強化学習のためのTLCR(Token-Level Continuous Reward)を紹介する。
提案するTLCRは,従来のシーケンスレベルやトークンレベルの離散報酬よりも一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-23T15:27:37Z) - Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。
有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。
1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:55:02Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。