論文の概要: ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data
- arxiv url: http://arxiv.org/abs/2504.14452v1
- Date: Sun, 20 Apr 2025 01:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:29:51.167999
- Title: ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data
- Title(参考訳): ParaPO: 事前トレーニングデータの最大再生産を減らすための言語モデルの調整
- Authors: Tong Chen, Faeze Brahman, Jiacheng Liu, Niloofar Mireshghallah, Weijia Shi, Pang Wei Koh, Luke Zettlemoyer, Hannaneh Hajishirzi,
- Abstract要約: 言語モデル(LM)は、非敵対的な設定であっても、単語のセグメントを記憶し、再生することができる。
ParaPO(Paraphrase Preference Optimization)は、意図しない逆流を減らすためにLMを微調整するポストトレーニング手法である。
そこで我々は,システムプロンプトを用いて再生行動を制御するParaPOの変種を開発した。
- 参考スコア(独自算出の注目度): 95.69966871257381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) can memorize and reproduce segments from their pretraining data verbatim even in non-adversarial settings, raising concerns about copyright, plagiarism, privacy, and creativity. We introduce Paraphrase Preference Optimization (ParaPO), a post-training method that fine-tunes LMs to reduce unintentional regurgitation while preserving their overall utility. ParaPO trains LMs to prefer paraphrased versions of memorized segments over the original verbatim content from the pretraining data. To maintain the ability to recall famous quotations when appropriate, we develop a variant of ParaPO that uses system prompts to control regurgitation behavior. In our evaluation on Llama3.1-8B, ParaPO consistently reduces regurgitation across all tested datasets (e.g., reducing the regurgitation metric from 17.3 to 12.9 in creative writing), whereas unlearning methods used in prior work to mitigate regurgitation are less effective outside their targeted unlearned domain (from 17.3 to 16.9). When applied to the instruction-tuned Tulu3-8B model, ParaPO with system prompting successfully preserves famous quotation recall while reducing unintentional regurgitation (from 8.7 to 6.3 in creative writing) when prompted not to regurgitate. In contrast, without ParaPO tuning, prompting the model not to regurgitate produces only a marginal reduction (8.7 to 8.4).
- Abstract(参考訳): 言語モデル(LM)は、非敵対的な設定であっても、事前訓練されたデータからセグメントを記憶し、再生することができ、著作権、盗作、プライバシー、創造性に関する懸念を提起する。
ParaPO(Paraphrase Preference Optimization)は、LMを微調整し、全体的な実用性を保ちながら意図しない調節を抑えるポストトレーニング手法である。
ParaPOは、事前学習データから元の動詞の内容よりも、記憶されたセグメントのパラフレーズ化されたバージョンを好むようにLMを訓練する。
適切なときに有名な引用をリコールする能力を維持するため,システムプロンプトを用いたParaPOの変種を開発した。
Llama3.1-8Bに対する我々の評価では、ParaPOはテスト対象のすべてのデータセット(例えば、クリエイティブな書き込みにおいて17.3から12.9まで)をまたいだリグルテーションを一貫して削減しますが、事前の作業で使われているアンラーニング手法は、ターゲットとする未学習領域(17.3から16.9まで)の外では効果が低いのです。
命令調整されたTulu3-8Bモデルに適用すると、ParaPOは、リグルジエートを行わないよう促されたときに意図しないリグルテーション(クリエイティビティ・ライティングでは8.7から6.3まで)を減らしながら、有名な引用リコールの保存に成功している。
対照的に、ParaPOチューニングなしでは、モデルをリグルジテートしないよう促すと、限界の縮小(8.7から8.4)しか生じない。
関連論文リスト
- Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Low-rank Adaptation of Large Language Model Rescoring for
Parameter-Efficient Speech Recognition [32.24656612803592]
音声認識出力再構成のための低ランク適応(LoRA)に基づくニューラルネットワークモデリングシステムを提案する。
本稿では,低ランク分解に基づく手法を提案し,事前訓練されたパラメータのごく一部だけを用いて,リスコリングBERTモデルをトレーニングし,新しい領域に適応させる。
提案した低ランク適応型Rescore-BERT(LoRB)アーキテクチャは、LibriSpeechおよび内部データセット上で5.4から3.6の因子でトレーニング時間を短縮した上で評価される。
論文 参考訳(メタデータ) (2023-09-26T19:41:34Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Controlling the Extraction of Memorized Data from Large Language Models
via Prompt-Tuning [14.228909822681373]
大規模言語モデル(LLM)は、トレーニングデータのかなりの部分を記憶することが知られている。
本稿では, LLMにおける暗記コンテンツの抽出速度を制御するために, プロンプトチューニングを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。