論文の概要: Large Language Models Sometimes Generate Purely Negatively-Reinforced
Text
- arxiv url: http://arxiv.org/abs/2306.07567v1
- Date: Tue, 13 Jun 2023 06:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:51:17.797987
- Title: Large Language Models Sometimes Generate Purely Negatively-Reinforced
Text
- Title(参考訳): 大きな言語モデルは時に純粋に負の強化されたテキストを生成する
- Authors: Fabien Roger
- Abstract要約: 逆行訓練では、最も過激な失敗に対する訓練が一般的である。
これは、トレーニングデータとしてセンシティブな情報(パスワードの漏洩やセキュリティ上の脆弱性など)を持つ例を暗示するかもしれない。
我々は、Pythia-160Mが確率より少し大きい確率でパスワードを生成できる特定のトレーニング設定を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When using adversarial training, it is common practice to train against the
most egregious failures. However, this might imply using examples with
sensitive information (such as leaked passwords or security vulnerabilities) as
training data. One might assume that language models trained with gradient
descent never generate text snippets which were only present in examples
associated with the lowest possible reward. In this paper, we show that this
assumption is wrong: in some situations, large language models do learn from
such negatively-reinforced examples. We present a specific training setup that
enables Pythia-160M to generate passwords with a probability slightly greater
than chance, despite only showing it these passwords on examples where the
model is incentivized to not output these passwords. Our code is available at
https://github.com/FabienRoger/Learning-From-Negative-Examples
- Abstract(参考訳): 敵対的なトレーニングを使用する場合、最も不利な障害に対してトレーニングするのが一般的です。
しかし、これはトレーニングデータとしてセンシティブな情報(パスワードの漏洩やセキュリティ脆弱性など)を持つ例を暗示している。
勾配降下で訓練された言語モデルは、最小の報酬に関連する例にのみ存在するテキストスニペットを決して生成しないと仮定できるかもしれない。
いくつかの状況では、大きな言語モデルはこのような否定的に強制された例から学んでいます。
我々は、Pythia-160Mが、これらのパスワードを、これらのパスワードを出力しないインセンティブが与えられた例にのみ示すにもかかわらず、偶然より少し大きな確率でパスワードを生成することができる特定のトレーニングセットを提案する。
私たちのコードはhttps://github.com/FabienRoger/Learning-From-Negative-Examplesで利用可能です。
関連論文リスト
- MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - The CRINGE Loss: Learning what language not to model [35.40992193113732]
ポジティブなトレーニングデータが多くても、比較的少量のネガティブなデータで緩和できる問題は残っています。
CRINGE損失(ContRastive Iterative Negative GEneration)と呼ばれるデータを用いたトレーニング手法を提案する。
私たちのモデルは、複数の強力なベースラインを上回り、概念的にはシンプルで、訓練と実装が容易です。
論文 参考訳(メタデータ) (2022-11-10T19:30:08Z) - Measuring Forgetting of Memorized Training Examples [80.9188503645436]
機械学習モデルは、トレーニングデータ記憶と様々な形態記憶の2つの矛盾する現象を示す。
特定の例では、モデルは特定のトレーニングに過度に適合し、最終的にはプライバシー攻撃の影響を受けやすい。
我々は、決定論的に忘れる例を潜在的な説明として識別し、モデルが時間とともに訓練された例を経験的に忘れないことを示す。
論文 参考訳(メタデータ) (2022-06-30T20:48:26Z) - Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。
最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文 参考訳(メタデータ) (2022-05-17T17:38:37Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks [75.46678178805382]
emphdata中毒攻撃では、攻撃者は学習した機械学習モデルを破損させるためにいくつかのトレーニング例を変更し、削除し、または挿入する。
データ中毒攻撃に対するバッグングの本質的確固たる堅牢性を証明する。
本手法は, 任意の修正, 削除, 挿入を行う場合, MNIST 上で 911.1% の精度を達成している。
論文 参考訳(メタデータ) (2020-08-11T03:12:42Z) - An Analysis of the Utility of Explicit Negative Examples to Improve the
Syntactic Abilities of Neural Language Models [32.183409062294466]
ニューラルネットワークモデルのトレーニングにおいて、明示的なネガティブな例の有用性について検討する。
直接学習の合図があっても、モデルはオブジェクト相対的な節をまたいだ合意の解決に苦しむ。
論文 参考訳(メタデータ) (2020-04-06T07:47:34Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。