論文の概要: PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
- arxiv url: http://arxiv.org/abs/2410.13785v1
- Date: Thu, 17 Oct 2024 17:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:52.017515
- Title: PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
- Title(参考訳): PopAlign: より包括的なアライメントのためのコントラストパターンの多様化
- Authors: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang,
- Abstract要約: より包括的で多様なコントラストパターンを構築し、嗜好データを強化する方法について検討する。
我々は、プロンプト、モデル、パイプラインレベルにまたがる多様なコントラストパターンを統合するフレームワークであるPopAlignを提案する。
- 参考スコア(独自算出の注目度): 46.68015780959369
- License:
- Abstract: Alignment of large language models (LLMs) involves training models on preference-contrastive output pairs to adjust their responses according to human preferences. To obtain such contrastive pairs, traditional methods like RLHF and RLAIF rely on limited contrasting patterns, such as varying model variants or decoding temperatures. This singularity leads to two issues: (1) alignment is not comprehensive; and thereby (2) models are susceptible to jailbreaking attacks. To address these issues, we investigate how to construct more comprehensive and diversified contrasting patterns to enhance preference data (RQ1) and verify the impact of the diversification of contrasting patterns on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that integrates diversified contrasting patterns across the prompt, model, and pipeline levels, introducing six contrasting strategies that do not require additional feedback labeling procedures. Regarding RQ2, we conduct thorough experiments demonstrating that PopAlign significantly outperforms existing methods, leading to more comprehensive alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントには、人間の好みに応じて反応を調整するために、嗜好に反する出力ペアのトレーニングモデルが含まれる。
このような対照的なペアを得るには、RLHFやRLAIFのような従来の手法は、異なるモデル変種や復号温度のような限られたコントラストパターンに依存している。
この特異性は、(1)アライメントが包括的ではないこと、(2)モデルがジェイルブレイク攻撃の影響を受けやすいこと、の2つの問題につながる。
これらの課題に対処するために、より包括的で多様化したコントラストパターンを構築して、嗜好データ(RQ1)を強化し、モデルアライメント(RQ2)に対するコントラストパターンの多様化の影響を検証する。
RQ1では、プロンプト、モデル、パイプラインレベルの異なるコントラストパターンを統合し、追加のフィードバックラベリング手順を必要としない6つのコントラスト戦略を導入するPopAlignを提案する。
RQ2に関しては、PopAlignが既存の手法を著しく上回り、より包括的なアライメントをもたらすことを示す徹底的な実験を行っている。
関連論文リスト
- Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling [14.170879566023098]
動的傾向情報をより合理的に捉えるための学習可能な分解戦略を導入する。
また、シリーズ間の依存関係とシリーズ間のバリエーションを同時にキャプチャする2つのアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-02-20T03:45:59Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Hybrid Contrastive Constraints for Multi-Scenario Ad Ranking [38.666592866591344]
マルチシナリオ広告ランキングは、複数のドメインやチャネルからのデータを活用して、統一されたランキングモデルをトレーニングすることを目的としている。
マルチシナリオ広告ランキングのためのHybrid Contrastive Constrained Approach (HC2)を提案する。
論文 参考訳(メタデータ) (2023-02-06T09:15:39Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。