論文の概要: Negative-Prompt-driven Alignment for Generative Language Model
- arxiv url: http://arxiv.org/abs/2410.12194v1
- Date: Wed, 16 Oct 2024 03:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:53.278724
- Title: Negative-Prompt-driven Alignment for Generative Language Model
- Title(参考訳): 生成言語モデルのための負のプロンプト駆動アライメント
- Authors: Shiqi Qiao, Ning Xv, Biao Liu, Xin Geng,
- Abstract要約: 本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
- 参考スコア(独自算出の注目度): 34.191590966148816
- License:
- Abstract: Large language models have achieved remarkable capabilities, but aligning their outputs with human values and preferences remains a significant challenge. Existing alignment methods primarily focus on positive examples while overlooking the importance of negative responses in guiding models away from undesirable behaviors. For instance, the widely-used alignment datasets reveals a scarcity of explicit negative examples that contradict human values, hindering its ability to discourage harmful or biased outputs during training. To address this limitation, we propose NEAT, i.e., NEgative-prompt-driven AlignmenT, to introduce negative prompts to generate undesirable responses alongside positive examples during the optimization process. NEAT explicitly penalizes the model for producing harmful outputs, guiding it not only toward desirable behaviors but also steering it away from generating undesirable, biased responses. This dual feedback mechanism enables better alignment with human preferences, crucial in contexts where avoiding harm is paramount. Starting from a pre-trained language model, NEAT performs online alignment by incorporating a ranking loss derived from an expanded preference dataset containing both positive and negative examples. Extensive experiments validate NEAT's effectiveness in significantly enhancing language models' alignment with human values and preferences.
- Abstract(参考訳): 大規模な言語モデルは目覚ましい能力を達成したが、アウトプットを人間の価値観や好みに合わせることは依然として大きな課題である。
既存のアライメント手法は、好ましくない振る舞いを避けるためのモデルにおいて、負の反応の重要性を見落としながら、主にポジティブな例に焦点を当てている。
例えば、広く使われているアライメントデータセットは、人間の価値と矛盾する明確なネガティブな例が不足していることを示し、トレーニング中に有害または偏りのあるアウトプットを阻止する能力を妨げている。
この制限に対処するため, NEAT(NEgative-prompt-driven AlignmenT)を提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
この二重フィードバック機構は、害を避けることが最重要であるコンテキストにおいて重要な、人間の好みとの整合性を高める。
NEATは、事前訓練された言語モデルから始まり、肯定例と否定例の両方を含む拡張された選好データセットから得られるランキング損失を組み込むことで、オンラインアライメントを行う。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
関連論文リスト
- Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models [2.0962367975513496]
機械学習は、特定のトレーニングデータの影響をモデルから効率的に排除することを目的としている。
既存の未学習手法は, 無視集合に関連する応答を抑制するために, 負のフィードバックのみに頼っている。
本稿では,AltPO(Alternate Preference Optimization)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:05:07Z) - Towards Unified Modeling for Positive and Negative Preferences in
Sign-Aware Recommendation [13.300975621769396]
textbfLight textbfSigned textbfGraph Convolution Network for textbfRecommendation (textbfLSGRec)を提案する。
高次不均一相互作用における負の選好について、一階の負の選好は負のリンクによって捕捉される。
推奨結果は肯定的な選好に基づいて生成され、負の選好で最適化される。
論文 参考訳(メタデータ) (2024-03-13T05:00:42Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Generating Negative Samples for Sequential Recommendation [83.60655196391855]
逐次レコメンデーション(SR)のための負のサンプル(イテム)を生成することを提案する。
アイテムに対する現在のSRモデルの学習されたユーザの好みに基づいて、各タイムステップで負の項目をサンプリングする。
4つの公開データセットの実験は、SRに高品質な負のサンプルを提供することの重要性を検証する。
論文 参考訳(メタデータ) (2022-08-07T05:44:13Z) - A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文 参考訳(メタデータ) (2022-02-28T14:00:16Z) - Contrastive Learning with Adversarial Perturbations for Conditional Text
Generation [49.055659008469284]
seq2seqモデルのコントラスト学習のための正負のサンプルを生成する原則的な方法を提案する。
具体的には、入力シーケンスに小さな摂動を加えることで、条件付き可能性を最小限に抑えるネガティブな例を生成します。
提案手法は,3つのテキスト生成タスクにおけるSeq2seqの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-12-14T06:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。