論文の概要: Automated Detection of Pre-training Text in Black-box LLMs
- arxiv url: http://arxiv.org/abs/2506.19399v1
- Date: Tue, 24 Jun 2025 08:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.544774
- Title: Automated Detection of Pre-training Text in Black-box LLMs
- Title(参考訳): ブラックボックスLDMにおける事前学習テキストの自動検出
- Authors: Ruihan Hu, Yu-Ming Shang, Jiankun Peng, Wei Luo, Yazhe Wang, Xi Zhang,
- Abstract要約: VeilProbeは、人間の介入なしにブラックボックス設定で事前学習されたテキストを自動的に検出するフレームワークである。
これは、入力テキストと大言語モデルによって生成された対応する出力接尾辞との間の潜時マッピングの特徴を推論する。
キートークンの摂動を実行し、より区別可能なメンバシップ機能を得る。
- 参考スコア(独自算出の注目度): 11.227481657336385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting whether a given text is a member of the pre-training data of Large Language Models (LLMs) is crucial for ensuring data privacy and copyright protection. Most existing methods rely on the LLM's hidden information (e.g., model parameters or token probabilities), making them ineffective in the black-box setting, where only input and output texts are accessible. Although some methods have been proposed for the black-box setting, they rely on massive manual efforts such as designing complicated questions or instructions. To address these issues, we propose VeilProbe, the first framework for automatically detecting LLMs' pre-training texts in a black-box setting without human intervention. VeilProbe utilizes a sequence-to-sequence mapping model to infer the latent mapping feature between the input text and the corresponding output suffix generated by the LLM. Then it performs the key token perturbations to obtain more distinguishable membership features. Additionally, considering real-world scenarios where the ground-truth training text samples are limited, a prototype-based membership classifier is introduced to alleviate the overfitting issue. Extensive evaluations on three widely used datasets demonstrate that our framework is effective and superior in the black-box setting.
- Abstract(参考訳): 与えられたテキストがLarge Language Models(LLMs)の事前学習データの一部であるかどうかを検出することは、データのプライバシと著作権保護を確保するために不可欠である。
既存のほとんどのメソッドはLLMの隠れた情報(例えばモデルパラメータやトークン確率)に依存しており、入力と出力のみにアクセス可能なブラックボックス設定では有効ではない。
ブラックボックスの設定にはいくつかの手法が提案されているが、複雑な質問や指示を設計するといった大規模な手作業に依存している。
これらの問題に対処するため,人間の介入を伴わないブラックボックス設定でLLMの事前学習テキストを自動的に検出する最初のフレームワークであるVeilProbeを提案する。
VeilProbeはシーケンス・ツー・シーケンスマッピングモデルを用いて、LLMによって生成された入力テキストと対応する出力接尾辞との間の潜時マッピング特徴を推測する。
そして、キートークンの摂動を実行し、より区別可能なメンバーシップ機能を得る。
また,テキストサンプルの精度が低い実世界のシナリオを考えると,オーバーフィッティングの問題を軽減するために,プロトタイプベースのメンバシップ分類器が導入された。
広く使われている3つのデータセットの大規模な評価は、我々のフレームワークがブラックボックス設定において有効であり、優れていることを示している。
関連論文リスト
- In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Generative Text Steganography with Large Language Model [10.572149957139736]
LLM-Stegaと呼ばれる大規模言語モデルのユーザインタフェースに基づくブラックボックス生成テキストステガノグラフィー手法。
まず、キーワードセットを構築し、秘密メッセージを埋め込むための新しい暗号化されたステガノグラフマッピングを設計する。
総合的な実験により、LLM-Stegaは現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-16T02:19:28Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。