論文の概要: DALD: Improving Logits-based Detector without Logits from Black-box LLMs
- arxiv url: http://arxiv.org/abs/2406.05232v4
- Date: Sun, 27 Oct 2024 09:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:42.996432
- Title: DALD: Improving Logits-based Detector without Logits from Black-box LLMs
- Title(参考訳): DALD:Black-box LLMからのログなしロジットベースの検出器の改善
- Authors: Cong Zeng, Shengkun Tang, Xianjun Yang, Yuanzhou Chen, Yiyou Sun, zhiqiang xu, Yao Li, Haifeng Chen, Wei Cheng, Dongkuan Xu,
- Abstract要約: 大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
- 参考スコア(独自算出の注目度): 56.234109491884126
- License:
- Abstract: The advent of Large Language Models (LLMs) has revolutionized text generation, producing outputs that closely mimic human writing. This blurring of lines between machine- and human-written text presents new challenges in distinguishing one from the other a task further complicated by the frequent updates and closed nature of leading proprietary LLMs. Traditional logits-based detection methods leverage surrogate models for identifying LLM-generated content when the exact logits are unavailable from black-box LLMs. However, these methods grapple with the misalignment between the distributions of the surrogate and the often undisclosed target models, leading to performance degradation, particularly with the introduction of new, closed-source models. Furthermore, while current methodologies are generally effective when the source model is identified, they falter in scenarios where the model version remains unknown, or the test set comprises outputs from various source models. To address these limitations, we present Distribution-Aligned LLMs Detection (DALD), an innovative framework that redefines the state-of-the-art performance in black-box text detection even without logits from source LLMs. DALD is designed to align the surrogate model's distribution with that of unknown target LLMs, ensuring enhanced detection capability and resilience against rapid model iterations with minimal training investment. By leveraging corpus samples from publicly accessible outputs of advanced models such as ChatGPT, GPT-4 and Claude-3, DALD fine-tunes surrogate models to synchronize with unknown source model distributions effectively.
- Abstract(参考訳): LLM(Large Language Models)の出現はテキスト生成に革命をもたらした。
この機械文と人文文の線がぼやけていることは、プロプライエタリなLLMの頻繁な更新とクローズドな性質によって、一方と他方を区別する作業がさらに複雑になる、という新たな課題を示している。
従来のロジットに基づく検出手法では、ブラックボックスのLLMから正確なロジットが利用できない場合に、Surrogateモデルを用いてLCM生成したコンテンツを識別する。
しかし、これらの手法はサロゲートの分布としばしば開示されるターゲットモデルとのミスアライメントに対処し、特に新しいクローズドソースモデルの導入による性能劣化につながった。
さらに、現在の方法論は、ソースモデルが特定されると一般的に有効であるが、モデルバージョンが不明なシナリオや、テストセットが様々なソースモデルから出力を出力するシナリオに干渉する。
これらの制約に対処するため、我々は、ソースLLMからのロジットを使わずに、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDis Distribution-Aligned LLMs Detection (DALD)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、最小限のトレーニング投資で高速モデルイテレーションに対する検出能力とレジリエンスを向上させるように設計されている。
コーパスサンプルをChatGPT, GPT-4, Claude-3などの先進モデルの公開出力から活用することにより、DALDファイントゥインシュロゲートモデルを未知のソースモデル分布と効率的に同期させる。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - A Fingerprint for Large Language Models [10.63985246068255]
大規模言語モデル(LLM)のための新しいブラックボックスフィンガープリント手法を提案する。
実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-01T12:25:42Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。