論文の概要: Improving Logits-based Detector without Logits from Black-box LLMs
- arxiv url: http://arxiv.org/abs/2406.05232v2
- Date: Tue, 11 Jun 2024 16:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:24:05.184892
- Title: Improving Logits-based Detector without Logits from Black-box LLMs
- Title(参考訳): ブラックボックスLCMによるロジット不要なロジットベース検出器の改良
- Authors: Cong Zeng, Shengkun Tang, Xianjun Yang, Yuanzhou Chen, Yiyou Sun, zhiqiang xu, Yao Li, Haifeng Chen, Wei Cheng, Dongkuan Xu,
- Abstract要約: 大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
- 参考スコア(独自算出の注目度): 56.234109491884126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) has revolutionized text generation, producing outputs that closely mimic human writing. This blurring of lines between machine- and human-written text presents new challenges in distinguishing one from the other a task further complicated by the frequent updates and closed nature of leading proprietary LLMs. Traditional logits-based detection methods leverage surrogate models for identifying LLM-generated content when the exact logits are unavailable from black-box LLMs. However, these methods grapple with the misalignment between the distributions of the surrogate and the often undisclosed target models, leading to performance degradation, particularly with the introduction of new, closed-source models. Furthermore, while current methodologies are generally effective when the source model is identified, they falter in scenarios where the model version remains unknown, or the test set comprises outputs from various source models. To address these limitations, we present Distribution-Aligned LLMs Detection (DALD), an innovative framework that redefines the state-of-the-art performance in black-box text detection even without logits from source LLMs. DALD is designed to align the surrogate model's distribution with that of unknown target LLMs, ensuring enhanced detection capability and resilience against rapid model iterations with minimal training investment. By leveraging corpus samples from publicly accessible outputs of advanced models such as ChatGPT, GPT-4 and Claude-3, DALD fine-tunes surrogate models to synchronize with unknown source model distributions effectively.
- Abstract(参考訳): LLM(Large Language Models)の出現はテキスト生成に革命をもたらした。
この機械文と人文文の線がぼやけていることは、プロプライエタリなLLMの頻繁な更新とクローズドな性質によって、一方と他方を区別する作業がさらに複雑になる、という新たな課題を示している。
従来のロジットに基づく検出手法では、ブラックボックスのLLMから正確なロジットが利用できない場合に、Surrogateモデルを用いてLCM生成したコンテンツを識別する。
しかし、これらの手法はサロゲートの分布としばしば開示されるターゲットモデルとのミスアライメントに対処し、特に新しいクローズドソースモデルの導入による性能劣化につながった。
さらに、現在の方法論は、ソースモデルが特定されると一般的に有効であるが、モデルバージョンが不明なシナリオや、テストセットが様々なソースモデルから出力を出力するシナリオに干渉する。
これらの制約に対処するため、我々は、ソースLLMからのロジットを使わずに、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDis Distribution-Aligned LLMs Detection (DALD)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、最小限のトレーニング投資で高速モデルイテレーションに対する検出能力とレジリエンスを向上させるように設計されている。
コーパスサンプルをChatGPT, GPT-4, Claude-3などの先進モデルの公開出力から活用することにより、DALDファイントゥインシュロゲートモデルを未知のソースモデル分布と効率的に同期させる。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - A Fingerprint for Large Language Models [10.63985246068255]
大規模言語モデル(LLM)のための新しいブラックボックスフィンガープリント手法を提案する。
実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-01T12:25:42Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based
LLM [2.8233611508673]
本研究は拡散強化トピックモデリングという新しいフレームワークを導入することでギャップを解消する。
拡散モデルのパワーを活用することで、我々のフレームワークはトピックベースのテキスト生成を行う能力も提供する。
論文 参考訳(メタデータ) (2023-10-23T19:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。