論文の概要: Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization
- arxiv url: http://arxiv.org/abs/2410.15052v1
- Date: Sat, 19 Oct 2024 09:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:56.719531
- Title: Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization
- Title(参考訳): グラディエント・ベースの離散最適化による大規模言語モデルにおけるグリッチトークンのマイニング
- Authors: Zihui Wu, Haichang Gao, Ping Wang, Shudong Zhang, Zhaoxiang Liu, Shiguo Lian,
- Abstract要約: 大規模言語モデル(LLM)のGlitchトークンは予測不可能な振る舞いを引き起こし、モデルの信頼性と安全性を損なう。
既存の検出方法は、しばしばグリッチトークンの以前の分布を推測するために手動による観察に依存している。
GlitchMinerは、LLMにおける効率的なグリッチトークン検出のために設計された、勾配に基づく離散最適化フレームワークである。
- 参考スコア(独自算出の注目度): 5.962706501263955
- License:
- Abstract: Glitch tokens in Large Language Models (LLMs) can trigger unpredictable behaviors, compromising model reliability and safety. Existing detection methods often rely on manual observation to infer the prior distribution of glitch tokens, which is inefficient and lacks adaptability across diverse model architectures. To address these limitations, we introduce GlitchMiner, a gradient-based discrete optimization framework designed for efficient glitch token detection in LLMs. GlitchMiner leverages an entropy-based loss function to quantify the uncertainty in model predictions and integrates first-order Taylor approximation with a local search strategy to effectively explore the token space. Our evaluation across various mainstream LLM architectures demonstrates that GlitchMiner surpasses existing methods in both detection precision and adaptability. In comparison to the previous state-of-the-art, GlitchMiner achieves an average improvement of 19.07% in precision@1000 for glitch token detection. By enabling efficient detection of glitch tokens, GlitchMiner provides a valuable tool for assessing and mitigating potential vulnerabilities in LLMs, contributing to their overall security.
- Abstract(参考訳): 大規模言語モデル(LLM)のGlitchトークンは予測不可能な振る舞いを引き起こし、モデルの信頼性と安全性を損なう。
既存の検出方法は、しばしば、様々なモデルアーキテクチャにおいて非効率で適応性に欠けるグリッチトークンの事前分布を推測するために手動による観察に依存している。
これらの制約に対処するために、LLMにおける効率的なグリッチトークン検出のために設計された勾配に基づく離散最適化フレームワークであるGlitchMinerを紹介する。
GlitchMinerはエントロピーに基づく損失関数を利用してモデル予測の不確実性を定量化し、一階テイラー近似と局所探索戦略を統合してトークン空間を効果的に探索する。
GlitchMinerは検出精度と適応性の両方において既存の手法を超越していることを示す。
これまでの最先端と比較して、GlitchMinerは、glitchトークン検出の精度@1000で平均19.07%の改善を実現している。
GlitchMinerは、グリッチトークンの効率的な検出を可能にすることで、LLMの潜在的な脆弱性を評価し緩和するための貴重なツールを提供し、全体的なセキュリティに寄与する。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AnomaLLMy -- Detecting anomalous tokens in black-box LLMs through low-confidence single-token predictions [0.0]
AnomaLLMyはブラックボックス大言語モデルにおける異常トークンの自動検出のための新しい技術である。
AnomaLLMyはモデル動作の不規則を識別し、モデルの品質と信頼性を低下させる異常トークンの問題に対処する。
論文 参考訳(メタデータ) (2024-06-28T11:28:44Z) - Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。
実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-18T13:17:26Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection [23.382844182972807]
確立されたトークン化者によって生成される異常トークンである"グリッチトークン"の現象を紹介し,検討する。
本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。
本稿では,新しいクラスタリング手法であるGlitchHunterを提案する。
論文 参考訳(メタデータ) (2024-04-15T16:06:36Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Robust Lottery Tickets for Pre-trained Language Models [57.14316619360376]
本稿では,従来の言語モデルに隠されたロバストなチケットを識別するために,二分重マスクの学習に基づく新しい手法を提案する。
実験結果から, 従来の対向ロバスト性評価法に比べて, 提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2022-11-06T02:59:27Z) - Efficiency Ordering of Stochastic Gradient Descent [9.634481296779057]
我々は、任意のグラフ上のノイズやランダムウォークを含む一般的なサンプリングシーケンスによって駆動される勾配降下(SGD)アルゴリズムについて検討する。
我々は、マルコフ・チェイン・モンテカルロサンプリング器の性能を比較するためのよく分析されたツールである「効率順序付け」の概念を採用している。
論文 参考訳(メタデータ) (2022-09-15T16:50:55Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。