Fugu-MT 論文翻訳(概要): Large Language Models Sometimes Generate Purely Negatively-Reinforced Text

論文の概要: Large Language Models Sometimes Generate Purely Negatively-Reinforced Text

arxiv url: http://arxiv.org/abs/2306.07567v1
Date: Tue, 13 Jun 2023 06:40:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 14:51:17.797987
Title: Large Language Models Sometimes Generate Purely Negatively-Reinforced Text
Title（参考訳）: 大きな言語モデルは時に純粋に負の強化されたテキストを生成する
Authors: Fabien Roger
Abstract要約: 逆行訓練では、最も過激な失敗に対する訓練が一般的である。これは、トレーニングデータとしてセンシティブな情報(パスワードの漏洩やセキュリティ上の脆弱性など)を持つ例を暗示するかもしれない。我々は、Pythia-160Mが確率より少し大きい確率でパスワードを生成できる特定のトレーニング設定を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When using adversarial training, it is common practice to train against the most egregious failures. However, this might imply using examples with sensitive information (such as leaked passwords or security vulnerabilities) as training data. One might assume that language models trained with gradient descent never generate text snippets which were only present in examples associated with the lowest possible reward. In this paper, we show that this assumption is wrong: in some situations, large language models do learn from such negatively-reinforced examples. We present a specific training setup that enables Pythia-160M to generate passwords with a probability slightly greater than chance, despite only showing it these passwords on examples where the model is incentivized to not output these passwords. Our code is available at https://github.com/FabienRoger/Learning-From-Negative-Examples
Abstract（参考訳）: 敵対的なトレーニングを使用する場合、最も不利な障害に対してトレーニングするのが一般的です。しかし、これはトレーニングデータとしてセンシティブな情報(パスワードの漏洩やセキュリティ脆弱性など)を持つ例を暗示している。勾配降下で訓練された言語モデルは、最小の報酬に関連する例にのみ存在するテキストスニペットを決して生成しないと仮定できるかもしれない。いくつかの状況では、大きな言語モデルはこのような否定的に強制された例から学んでいます。我々は、Pythia-160Mが、これらのパスワードを、これらのパスワードを出力しないインセンティブが与えられた例にのみ示すにもかかわらず、偶然より少し大きな確率でパスワードを生成することができる特定のトレーニングセットを提案する。私たちのコードはhttps://github.com/FabienRoger/Learning-From-Negative-Examplesで利用可能です。

関連論文リスト

Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文参考訳（メタデータ） (2025-06-09T17:26:14Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
The CRINGE Loss: Learning what language not to model [35.40992193113732]
ポジティブなトレーニングデータが多くても、比較的少量のネガティブなデータで緩和できる問題は残っています。 CRINGE損失(ContRastive Iterative Negative GEneration)と呼ばれるデータを用いたトレーニング手法を提案する。私たちのモデルは、複数の強力なベースラインを上回り、概念的にはシンプルで、訓練と実装が容易です。
論文参考訳（メタデータ） (2022-11-10T19:30:08Z)
Measuring Forgetting of Memorized Training Examples [80.9188503645436]
機械学習モデルは、トレーニングデータ記憶と様々な形態記憶の2つの矛盾する現象を示す。特定の例では、モデルは特定のトレーニングに過度に適合し、最終的にはプライバシー攻撃の影響を受けやすい。我々は、決定論的に忘れる例を潜在的な説明として識別し、モデルが時間とともに訓練された例を経験的に忘れないことを示す。
論文参考訳（メタデータ） (2022-06-30T20:48:26Z)
Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文参考訳（メタデータ） (2022-05-17T17:38:37Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)
On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文参考訳（メタデータ） (2021-10-15T21:41:16Z)
Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文参考訳（メタデータ） (2020-12-14T18:39:09Z)
Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks [75.46678178805382]
emphdata中毒攻撃では、攻撃者は学習した機械学習モデルを破損させるためにいくつかのトレーニング例を変更し、削除し、または挿入する。データ中毒攻撃に対するバッグングの本質的確固たる堅牢性を証明する。本手法は, 任意の修正, 削除, 挿入を行う場合, MNIST 上で 911.1% の精度を達成している。
論文参考訳（メタデータ） (2020-08-11T03:12:42Z)
An Analysis of the Utility of Explicit Negative Examples to Improve the Syntactic Abilities of Neural Language Models [32.183409062294466]
ニューラルネットワークモデルのトレーニングにおいて、明示的なネガティブな例の有用性について検討する。直接学習の合図があっても、モデルはオブジェクト相対的な節をまたいだ合意の解決に苦しむ。
論文参考訳（メタデータ） (2020-04-06T07:47:34Z)
Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。 ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文参考訳（メタデータ） (2020-03-24T03:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。