Fugu-MT 論文翻訳(概要): Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization

論文の概要: Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization

arxiv url: http://arxiv.org/abs/2410.15052v1
Date: Sat, 19 Oct 2024 09:49:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.875494
Title: Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization
Title（参考訳）: グラディエント・ベースの離散最適化による大規模言語モデルにおけるグリッチトークンのマイニング
Authors: Zihui Wu, Haichang Gao, Ping Wang, Shudong Zhang, Zhaoxiang Liu, Shiguo Lian,
Abstract要約: 大規模言語モデル(LLM)のGlitchトークンは予測不可能な振る舞いを引き起こし、モデルの信頼性と安全性を損なう。既存の検出方法は、しばしばグリッチトークンの以前の分布を推測するために手動による観察に依存している。 GlitchMinerは、LLMにおける効率的なグリッチトークン検出のために設計された、勾配に基づく離散最適化フレームワークである。
参考スコア（独自算出の注目度）: 5.962706501263955
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Glitch tokens in Large Language Models (LLMs) can trigger unpredictable behaviors, compromising model reliability and safety. Existing detection methods often rely on manual observation to infer the prior distribution of glitch tokens, which is inefficient and lacks adaptability across diverse model architectures. To address these limitations, we introduce GlitchMiner, a gradient-based discrete optimization framework designed for efficient glitch token detection in LLMs. GlitchMiner leverages an entropy-based loss function to quantify the uncertainty in model predictions and integrates first-order Taylor approximation with a local search strategy to effectively explore the token space. Our evaluation across various mainstream LLM architectures demonstrates that GlitchMiner surpasses existing methods in both detection precision and adaptability. In comparison to the previous state-of-the-art, GlitchMiner achieves an average improvement of 19.07% in precision@1000 for glitch token detection. By enabling efficient detection of glitch tokens, GlitchMiner provides a valuable tool for assessing and mitigating potential vulnerabilities in LLMs, contributing to their overall security.
Abstract（参考訳）: 大規模言語モデル(LLM)のGlitchトークンは予測不可能な振る舞いを引き起こし、モデルの信頼性と安全性を損なう。既存の検出方法は、しばしば、様々なモデルアーキテクチャにおいて非効率で適応性に欠けるグリッチトークンの事前分布を推測するために手動による観察に依存している。これらの制約に対処するために、LLMにおける効率的なグリッチトークン検出のために設計された勾配に基づく離散最適化フレームワークであるGlitchMinerを紹介する。 GlitchMinerはエントロピーに基づく損失関数を利用してモデル予測の不確実性を定量化し、一階テイラー近似と局所探索戦略を統合してトークン空間を効果的に探索する。 GlitchMinerは検出精度と適応性の両方において既存の手法を超越していることを示す。これまでの最先端と比較して、GlitchMinerは、glitchトークン検出の精度@1000で平均19.07%の改善を実現している。 GlitchMinerは、グリッチトークンの効率的な検出を可能にすることで、LLMの潜在的な脆弱性を評価し緩和するための貴重なツールを提供し、全体的なセキュリティに寄与する。

関連論文リスト

Sharpness-aware Dynamic Anchor Selection for Generalized Category Discovery [61.694524826522205]
既知のクラスのラベル付きデータを考えると、GCDは既知のクラスと未知のクラスの両方を含むラベルなしデータをクラスタ化することを目的としている。大規模な事前学習モデルでは、特定の視覚的パターンが好まれ、ラベルのないデータに対して刺激的な相関を符号化する。 LSP(Los Sharpness Penalty)とDAS(Dynamic Anchor Selection)の2つのモジュールを含む新しい手法を提案する。
論文参考訳（メタデータ） (2025-12-15T02:24:06Z)
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
SAEL: Leveraging Large Language Models with Adaptive Mixture-of-Experts for Smart Contract Vulnerability Detection [14.581402965011117]
スマートコントラクト脆弱性検出のためのLLMベースのフレームワークであるSAELを提案する。まず、脆弱性を特定し、説明を生成するためにLSMを誘導するプロンプトを設計する。次に、CodeT5とT5のプロンプトチューニングをコントラクトコードと説明処理に適用し、タスク固有のパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-07-30T04:28:00Z)
Glitches in Decision Tree Ensemble Models [2.315929905765514]
グリッチは入力空間内の小さな近傍で、入力の小さな変化に対してモデルの出力が突然振動する。文献からよく知られたモデルとデータセットを用いて、グリッチが広く存在することを示す。グリッチ検出の問題は,すでに深さ4の樹木に対して,樹木のアンサンブルに対してNP完全であることが証明されている。
論文参考訳（メタデータ） (2025-07-19T05:33:57Z)
VERA: Variational Inference Framework for Jailbreaking Large Language Models [15.03256687264469]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。 VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文参考訳（メタデータ） (2025-06-27T22:22:00Z)
Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文参考訳（メタデータ） (2025-05-23T15:05:56Z)
LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。 49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文参考訳（メタデータ） (2025-05-13T06:26:13Z)
MSL: Not All Tokens Are What You Need for Tuning LLM as a Recommender [24.03860153639828]
提案するMasked Softmax Loss (MSL) は,大規模言語モデル (LLM) を推奨する。 MSLは、損失計算中に架空のアイテム記述につながる可能性のある無効トークンを識別し、マスクすることで、LMLを改善している。 4つの公開データセットで実施された大規模な実験は、MSLの有効性をさらに検証し、NDCG@10で平均42.24%の改善を達成した。
論文参考訳（メタデータ） (2025-04-05T13:48:33Z)
LLM-Guided Evolution: An Autonomous Model Optimization for Object Detection [0.0]
機械学習では、ニューラルネットワークサーチ(NAS)はモデル設計のドメイン知識と、有望なパフォーマンスを達成するために大量の試行錯誤を必要とする。 Large Language Model (LLM)-Guided Evolution (GE)フレームワークは、CIFARデータ上の画像分類アルゴリズムのモデルソースコードを直接修正するためにLLMを組み込むことによって、このアプローチを変革した。 LLM-GEは平均平均精度を92.5%から94.5%に向上させるなど,大幅な性能向上を図った。
論文参考訳（メタデータ） (2025-04-03T05:06:06Z)
Prompt engineering and framework: implementation to increase code reliability based guideline for LLMs [0.0]
生成されたコードスニペットの品質と正確性を改善するために,プロンプトテンプレートを導入する。提案手法はPass@kメートル法においてゼロショット法やチェーン・オブ・ソート法(CoT)法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-19T18:33:08Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
CogSteer: Cognition-Inspired Selective Layer Intervention for Efficient Semantic Steering in Large Language Models [22.42235251921268]
本研究では,眼球運動計測法を用いて,層間における大規模言語モデル(LLM)の振る舞いを解釈する。これらの知見に触発され, ステアリング層選択を導入し, 微調整と推論による層間干渉法に適用した。提案手法は, 計算資源の97%, トレーニング時間の60%を効率よく節約しつつ, 毒性スコアの点で優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-23T09:40:15Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks [24.935016443423233]
本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%～30%の精度向上を実現した。
論文参考訳（メタデータ） (2024-10-05T17:22:39Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models [17.633722815221983]
大規模言語モデル(LLM)は、自然言語処理の分野で前例のない成功を収めた。最近の研究では、モデルの語彙空間に異常トークンのクラスを発見し、それらを「グリッチトークン」と名付けた。本研究では,グリッチトークンの理解を深め,その検出と緩和のための手法を提案する。
論文参考訳（メタデータ） (2024-08-09T07:19:53Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization [46.98249466236357]
大規模言語モデル(LLM)は、有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすい。本稿では,新しいトークンレベル攻撃手法であるAdaptive-to-Sparse Constrained Optimization (ADC)を提案する。
論文参考訳（メタデータ） (2024-05-15T06:11:24Z)
AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Language Models [19.36513465638031]
AnomalyLLMは、いくつかのラベル付きサンプルの情報を統合して、数発の異常検出を実現する、コンテキスト内学習フレームワークである。 4つのデータセットの実験により、AnomalyLLMは、数発の異常検出のパフォーマンスを著しく改善できるだけでなく、モデルパラメータを更新することなく、新しい異常に対して優れた結果を得ることができることが明らかになった。
論文参考訳（メタデータ） (2024-05-13T10:37:50Z)
An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文参考訳（メタデータ） (2024-03-30T08:42:10Z)
MLAD: A Unified Model for Multi-system Log Anomaly Detection [35.68387377240593]
複数のシステムにまたがる意味的関係推論を組み込んだ新しい異常検出モデルMLADを提案する。具体的には、Sentence-bertを用いてログシーケンス間の類似性を捉え、それらを高次元の学習可能な意味ベクトルに変換する。我々は,各キーワードのシーケンスにおける意義を識別し,マルチシステムデータセットの全体分布をモデル化するために,アテンション層の公式を改訂する。
論文参考訳（メタデータ） (2024-01-15T12:51:13Z)
An Empirical Evaluation of Zeroth-Order Optimization Methods on AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。 ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文参考訳（メタデータ） (2022-10-27T01:58:10Z)
Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文参考訳（メタデータ） (2021-08-01T14:33:17Z)
Meta-learning One-class Classifiers with Eigenvalue Solvers for Supervised Anomaly Detection [55.888835686183995]
教師付き異常検出のためのニューラルネットワークに基づくメタラーニング手法を提案する。提案手法は,既存の異常検出法や少数ショット学習法よりも優れた性能を実現することを実験的に実証した。
論文参考訳（メタデータ） (2021-03-01T01:43:04Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。