論文の概要: Language Models May Verbatim Complete Text They Were Not Explicitly Trained On
- arxiv url: http://arxiv.org/abs/2503.17514v2
- Date: Tue, 25 Mar 2025 04:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 10:44:11.908579
- Title: Language Models May Verbatim Complete Text They Were Not Explicitly Trained On
- Title(参考訳): 言語モデルは、明示的な訓練を受けていない完全テキストを最大化するかもしれない
- Authors: Ken Ziyu Liu, Christopher A. Choquette-Choo, Matthew Jagielski, Peter Kairouz, Sanmi Koyejo, Percy Liang, Nicolas Papernot,
- Abstract要約: 我々は、$n$-gram ベースのメンバシップ定義を効果的にゲームできることを示す。
会員定義に対して$n$の1つの実行可能な選択を見つけることは困難であることを示す。
以上の結果から,n$-gramの会員シップが不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 97.3414396208613
- License:
- Abstract: An important question today is whether a given text was used to train a large language model (LLM). A \emph{completion} test is often employed: check if the LLM completes a sufficiently complex text. This, however, requires a ground-truth definition of membership; most commonly, it is defined as a member based on the $n$-gram overlap between the target text and any text in the dataset. In this work, we demonstrate that this $n$-gram based membership definition can be effectively gamed. We study scenarios where sequences are \emph{non-members} for a given $n$ and we find that completion tests still succeed. We find many natural cases of this phenomenon by retraining LLMs from scratch after removing all training samples that were completed; these cases include exact duplicates, near-duplicates, and even short overlaps. They showcase that it is difficult to find a single viable choice of $n$ for membership definitions. Using these insights, we design adversarial datasets that can cause a given target sequence to be completed without containing it, for any reasonable choice of $n$. Our findings highlight the inadequacy of $n$-gram membership, suggesting membership definitions fail to account for auxiliary information available to the training algorithm.
- Abstract(参考訳): 今日の重要な問題は、あるテキストが大きな言語モデル(LLM)のトレーニングに使用されたかどうかである。
LLMが十分に複雑なテキストを完了したかどうかをチェックする。
最も一般的には、ターゲットテキストとデータセット内の任意のテキスト間の$n$-gramの重複に基づいて、メンバとして定義される。
本研究では,この$n$-gramに基づくメンバシップ定義を効果的にゲーム化できることを実証する。
与えられた$n$に対してシーケンスが \emph{non-members} であるシナリオを研究し、完了テストがまだ成功することを確かめる。
この現象の自然発生例は、完了したすべてのトレーニングサンプルを除去した後、スクラッチからLLMを再訓練し、正確な重複、ほぼ重複、さらには短い重複を含むものが多い。
彼らは、メンバーシップ定義に対して$n$の単一の実行可能な選択を見つけることは困難であることを示した。
これらの知見を用いて、所定のターゲットシーケンスを含まないままに完了させることができる敵データセットを設計し、妥当な選択は$n$である。
本研究は,n$-gramの会員シップが不十分であることに注目し,会員定義がトレーニングアルゴリズムで利用可能な補助情報を考慮できないことを示唆している。
関連論文リスト
- Emergent Response Planning in LLM [6.969916576925677]
我々は,大規模言語モデル (LLM) が将来,その隠れ表現に先んじることを示す。
この結果は、透明性と生成制御を改善するための潜在的な応用を示唆している。
論文 参考訳(メタデータ) (2025-02-10T08:48:10Z) - Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
その結果,本試験におけるI型およびII型エラーはテキスト長で指数関数的に減少することがわかった。
文字列が$A$で生成される場合、$A$以下の文字列の対数複雑度は、文字列長の指数的に小さい確率を除いて、$A$以下の文字列の平均エントロピーに収束することを示す。
論文 参考訳(メタデータ) (2025-01-04T23:51:43Z) - Reasoning to Attend: Try to Understand How <SEG> Token Works [44.33848900059659]
我々は、$texttSEG>$トークンが、画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。
本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
論文 参考訳(メタデータ) (2024-12-23T17:44:05Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - Adversarial Online Multi-Task Reinforcement Learning [12.421997449847153]
対戦型オンラインマルチタスク強化学習環境について考察する。
K$の各エピソードにおいて、学習者は未知のタスクをM$未知有限ホライゾン MDP モデルの有限集合から与えられる。
学習者の目的は,各課題に対する最適方針に関して,その後悔を一般化することである。
論文 参考訳(メタデータ) (2023-01-11T02:18:26Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。