論文の概要: Negating Negatives: Alignment without Human Positive Samples via
Distributional Dispreference Optimization
- arxiv url: http://arxiv.org/abs/2403.03419v1
- Date: Wed, 6 Mar 2024 03:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:25:31.228520
- Title: Negating Negatives: Alignment without Human Positive Samples via
Distributional Dispreference Optimization
- Title(参考訳): negating negatives: distributional dispreference optimization によるヒト陽性サンプルのないアライメント
- Authors: Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu
- Abstract要約: 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクを生じさせている。
この研究は、人間に注釈付けされた負のサンプルのみを用いてアライメントを達成することに焦点を当てている。
- 参考スコア(独自算出の注目度): 36.66806788879868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized the role of AI, yet also
pose potential risks of propagating unethical content. Alignment technologies
have been introduced to steer LLMs towards human preference, gaining increasing
attention. Despite notable breakthroughs in this direction, existing methods
heavily rely on high-quality positive-negative training pairs, suffering from
noisy labels and the marginal distinction between preferred and dispreferred
response data. Given recent LLMs' proficiency in generating helpful responses,
this work pivots towards a new research focus: achieving alignment using solely
human-annotated negative samples, preserving helpfulness while reducing
harmfulness. For this purpose, we propose Distributional Dispreference
Optimization (D$^2$O), which maximizes the discrepancy between the generated
responses and the dispreferred ones to effectively eschew harmful information.
We theoretically demonstrate that D$^2$O is equivalent to learning a
distributional instead of instance-level preference model reflecting human
dispreference against the distribution of negative responses. Besides, D$^2$O
integrates an implicit Jeffrey Divergence regularization to balance the
exploitation and exploration of reference policies and converges to a
non-negative one during training. Extensive experiments demonstrate that our
method achieves comparable generation quality and surpasses the latest
baselines in producing less harmful and more informative responses with better
training stability and faster convergence.
- Abstract(参考訳): 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクも生じている。
LLMを人間の嗜好に向かわせるためにアライメント技術が導入され、注目を集めている。
この方向の顕著なブレークスルーにもかかわらず、既存の手法は高品質な正負のトレーニングペアに大きく依存しており、ノイズラベルに悩まされており、好ましくない反応データと好ましくない反応データとの差がある。
近年のLCMの有効な応答生成能力を考えると、この研究は人間だけの陰性サンプルを用いてアライメントを達成すること、有害性を抑えながら有用性を維持すること、という新たな研究に焦点をあてている。
そこで,本研究では,生成した応答と予測されていない応答との間の不一致を最大化し,有害な情報を効果的に回避する分布的不参照最適化(d$^2$o)を提案する。
理論的には、D$^2$Oは、負の応答の分布に対する人間の軽視を反映するインスタンスレベルの選好モデルではなく、分布の学習と等価である。
さらに、D$^2$Oは暗黙のジェフリー・ディバージェンス正規化を統合し、参照ポリシーの活用と探索のバランスをとり、訓練中に非負のポリシーに収束する。
広範な実験により,本手法は同等の世代品質を達成し,より効率のよいトレーニング安定性とより高速な収束性を備えた,より有害でより有益な応答を生成する最新のベースラインを上回った。
関連論文リスト
- Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文 参考訳(メタデータ) (2024-10-16T03:30:09Z) - RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold [41.28168368547099]
モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。
ステップごとの負のトレーニングは、ポジティブなデータにおける突発的な相関を解き放つのに役立ちます。
論文 参考訳(メタデータ) (2024-06-20T17:45:54Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。
アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。
4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文 参考訳(メタデータ) (2022-08-07T05:44:13Z) - Negative Sampling for Recommendation [7.758275614033198]
高品質なネガティブなインスタンスを効果的にサンプルする方法は、レコメンデーションモデルを適切にトレーニングするために重要である。
我々は、高品質なネガティブは、テクスチュンフォームネスとテクスチュンバイアスネスの両方であるべきだと論じる。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T14:42:23Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z) - Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。
我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。
提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-05-20T06:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。