Fugu-MT 論文翻訳(概要): Negating Negatives: Alignment without Human Positive Samples via Distributional Dispreference Optimization

論文の概要: Negating Negatives: Alignment without Human Positive Samples via Distributional Dispreference Optimization

arxiv url: http://arxiv.org/abs/2403.03419v1
Date: Wed, 6 Mar 2024 03:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 16:25:31.228520
Title: Negating Negatives: Alignment without Human Positive Samples via Distributional Dispreference Optimization
Title（参考訳）: negating negatives: distributional dispreference optimization によるヒト陽性サンプルのないアライメント
Authors: Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu
Abstract要約: 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクを生じさせている。この研究は、人間に注釈付けされた負のサンプルのみを用いてアライメントを達成することに焦点を当てている。
参考スコア（独自算出の注目度）: 36.66806788879868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have revolutionized the role of AI, yet also pose potential risks of propagating unethical content. Alignment technologies have been introduced to steer LLMs towards human preference, gaining increasing attention. Despite notable breakthroughs in this direction, existing methods heavily rely on high-quality positive-negative training pairs, suffering from noisy labels and the marginal distinction between preferred and dispreferred response data. Given recent LLMs' proficiency in generating helpful responses, this work pivots towards a new research focus: achieving alignment using solely human-annotated negative samples, preserving helpfulness while reducing harmfulness. For this purpose, we propose Distributional Dispreference Optimization (D$^2$O), which maximizes the discrepancy between the generated responses and the dispreferred ones to effectively eschew harmful information. We theoretically demonstrate that D$^2$O is equivalent to learning a distributional instead of instance-level preference model reflecting human dispreference against the distribution of negative responses. Besides, D$^2$O integrates an implicit Jeffrey Divergence regularization to balance the exploitation and exploration of reference policies and converges to a non-negative one during training. Extensive experiments demonstrate that our method achieves comparable generation quality and surpasses the latest baselines in producing less harmful and more informative responses with better training stability and faster convergence.
Abstract（参考訳）: 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクも生じている。 LLMを人間の嗜好に向かわせるためにアライメント技術が導入され、注目を集めている。この方向の顕著なブレークスルーにもかかわらず、既存の手法は高品質な正負のトレーニングペアに大きく依存しており、ノイズラベルに悩まされており、好ましくない反応データと好ましくない反応データとの差がある。近年のLCMの有効な応答生成能力を考えると、この研究は人間だけの陰性サンプルを用いてアライメントを達成すること、有害性を抑えながら有用性を維持すること、という新たな研究に焦点をあてている。そこで,本研究では,生成した応答と予測されていない応答との間の不一致を最大化し,有害な情報を効果的に回避する分布的不参照最適化(d$^2$o)を提案する。理論的には、D$^2$Oは、負の応答の分布に対する人間の軽視を反映するインスタンスレベルの選好モデルではなく、分布の学習と等価である。さらに、D$^2$Oは暗黙のジェフリー・ディバージェンス正規化を統合し、参照ポリシーの活用と探索のバランスをとり、訓練中に非負のポリシーに収束する。広範な実験により,本手法は同等の世代品質を達成し,より効率のよいトレーニング安定性とより高速な収束性を備えた,より有害でより有益な応答を生成する最新のベースラインを上回った。

関連論文リスト

SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval [45.971786380884126]
Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T03:49:00Z)
Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。 NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文参考訳（メタデータ） (2024-10-16T03:30:09Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Learning from negative feedback, or positive feedback or both [21.95277469346728]
ポジティブなフィードバックとネガティブなフィードバックから学習を分離する新しいアプローチを導入する。重要な貢献は、ネガティブなフィードバックだけで安定した学習を示すことです。
論文参考訳（メタデータ） (2024-10-05T14:04:03Z)
RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold [41.28168368547099]
モデル生成合成データのトレーニングは、LLMを微調整する上で有望なアプローチであるが、それがいつ役に立つかは、まだ不明である。ステップごとの負のトレーニングは、ポジティブなデータにおける突発的な相関を解き放つのに役立ちます。
論文参考訳（メタデータ） (2024-06-20T17:45:54Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。 4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文参考訳（メタデータ） (2022-08-07T05:44:13Z)
Negative Sampling for Recommendation [7.758275614033198]
高品質なネガティブなインスタンスを効果的にサンプルする方法は、レコメンデーションモデルを適切にトレーニングするために重要である。我々は、高品質なネガティブは、テクスチュンフォームネスとテクスチュンバイアスネスの両方であるべきだと論じる。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。両方の問題の古典的な方法は、高次元の設定で分解される。 BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文参考訳（メタデータ） (2021-11-01T14:42:23Z)
Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文参考訳（メタデータ） (2020-12-23T06:28:00Z)
Simplify and Robustify Negative Sampling for Implicit Collaborative Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。 2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文参考訳（メタデータ） (2020-09-07T19:08:26Z)
NPCFace: Negative-Positive Collaborative Training for Large-scale Face Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文参考訳（メタデータ） (2020-07-20T14:52:29Z)
Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文参考訳（メタデータ） (2020-05-20T06:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。