論文の概要: Negating Negatives: Alignment without Human Positive Samples via
Distributional Dispreference Optimization
- arxiv url: http://arxiv.org/abs/2403.03419v1
- Date: Wed, 6 Mar 2024 03:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:25:31.228520
- Title: Negating Negatives: Alignment without Human Positive Samples via
Distributional Dispreference Optimization
- Title(参考訳): negating negatives: distributional dispreference optimization によるヒト陽性サンプルのないアライメント
- Authors: Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu
- Abstract要約: 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクを生じさせている。
この研究は、人間に注釈付けされた負のサンプルのみを用いてアライメントを達成することに焦点を当てている。
- 参考スコア(独自算出の注目度): 36.66806788879868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized the role of AI, yet also
pose potential risks of propagating unethical content. Alignment technologies
have been introduced to steer LLMs towards human preference, gaining increasing
attention. Despite notable breakthroughs in this direction, existing methods
heavily rely on high-quality positive-negative training pairs, suffering from
noisy labels and the marginal distinction between preferred and dispreferred
response data. Given recent LLMs' proficiency in generating helpful responses,
this work pivots towards a new research focus: achieving alignment using solely
human-annotated negative samples, preserving helpfulness while reducing
harmfulness. For this purpose, we propose Distributional Dispreference
Optimization (D$^2$O), which maximizes the discrepancy between the generated
responses and the dispreferred ones to effectively eschew harmful information.
We theoretically demonstrate that D$^2$O is equivalent to learning a
distributional instead of instance-level preference model reflecting human
dispreference against the distribution of negative responses. Besides, D$^2$O
integrates an implicit Jeffrey Divergence regularization to balance the
exploitation and exploration of reference policies and converges to a
non-negative one during training. Extensive experiments demonstrate that our
method achieves comparable generation quality and surpasses the latest
baselines in producing less harmful and more informative responses with better
training stability and faster convergence.
- Abstract(参考訳): 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクも生じている。
LLMを人間の嗜好に向かわせるためにアライメント技術が導入され、注目を集めている。
この方向の顕著なブレークスルーにもかかわらず、既存の手法は高品質な正負のトレーニングペアに大きく依存しており、ノイズラベルに悩まされており、好ましくない反応データと好ましくない反応データとの差がある。
近年のLCMの有効な応答生成能力を考えると、この研究は人間だけの陰性サンプルを用いてアライメントを達成すること、有害性を抑えながら有用性を維持すること、という新たな研究に焦点をあてている。
そこで,本研究では,生成した応答と予測されていない応答との間の不一致を最大化し,有害な情報を効果的に回避する分布的不参照最適化(d$^2$o)を提案する。
理論的には、D$^2$Oは、負の応答の分布に対する人間の軽視を反映するインスタンスレベルの選好モデルではなく、分布の学習と等価である。
さらに、D$^2$Oは暗黙のジェフリー・ディバージェンス正規化を統合し、参照ポリシーの活用と探索のバランスをとり、訓練中に非負のポリシーに収束する。
広範な実験により,本手法は同等の世代品質を達成し,より効率のよいトレーニング安定性とより高速な収束性を備えた,より有害でより有益な応答を生成する最新のベースラインを上回った。
関連論文リスト
- Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions [17.485655062129965]
近年のAIエージェントは、大規模言語モデル(LLM)の出力を人間の意図で調整するために、命令チューニングと強化学習に依存している。
PT-ALIGN(PT-ALIGN)は,ヒトの健康管理を最小化するための安全自己調整手法である。
PT-ALIGNの安全性向上に有効であると同時に,有用性と有用性の両面を両立させながら,9つのオープンソース LLM 実験を行った。
論文 参考訳(メタデータ) (2025-02-08T09:54:47Z) - SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval [45.971786380884126]
Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。
大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。
本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:49:00Z) - Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文 参考訳(メタデータ) (2024-10-16T03:30:09Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。
アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。
4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文 参考訳(メタデータ) (2022-08-07T05:44:13Z) - Negative Sampling for Recommendation [7.758275614033198]
高品質なネガティブなインスタンスを効果的にサンプルする方法は、レコメンデーションモデルを適切にトレーニングするために重要である。
我々は、高品質なネガティブは、テクスチュンフォームネスとテクスチュンバイアスネスの両方であるべきだと論じる。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T14:42:23Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。