論文の概要: Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection
- arxiv url: http://arxiv.org/abs/2404.09894v2
- Date: Tue, 16 Apr 2024 07:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:47:37.191017
- Title: Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection
- Title(参考訳): 大規模言語モデルにおけるGlitch Tokens:分類分類と効果的な検出
- Authors: Yuxi Li, Yi Liu, Gelei Deng, Ying Zhang, Wenjia Song, Ling Shi, Kailong Wang, Yuekang Li, Yang Liu, Haoyu Wang,
- Abstract要約: 確立されたトークン化者によって生成される異常トークンである"グリッチトークン"の現象を紹介し,検討する。
本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。
本稿では,新しいクラスタリング手法であるGlitchHunterを提案する。
- 参考スコア(独自算出の注目度): 23.382844182972807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the expanding application of Large Language Models (LLMs) in various domains, it becomes imperative to comprehensively investigate their unforeseen behaviors and consequent outcomes. In this study, we introduce and systematically explore the phenomenon of "glitch tokens", which are anomalous tokens produced by established tokenizers and could potentially compromise the models' quality of response. Specifically, we experiment on seven top popular LLMs utilizing three distinct tokenizers and involving a totally of 182,517 tokens. We present categorizations of the identified glitch tokens and symptoms exhibited by LLMs when interacting with glitch tokens. Based on our observation that glitch tokens tend to cluster in the embedding space, we propose GlitchHunter, a novel iterative clustering-based technique, for efficient glitch token detection. The evaluation shows that our approach notably outperforms three baseline methods on eight open-source LLMs. To the best of our knowledge, we present the first comprehensive study on glitch tokens. Our new detection further provides valuable insights into mitigating tokenization-related errors in LLMs.
- Abstract(参考訳): 様々な領域におけるLarge Language Models (LLMs) の適用が拡大するにつれ、その予期せぬ振る舞いやそれに伴う成果を包括的に調査することが義務づけられる。
本研究では,確立されたトークン化器が生成する異常トークンである"グリッチトークン"の現象を紹介し,系統的に検討し,モデルの品質を損なう可能性がある。
具体的には、3つの異なるトークン化剤を使用し、合計182,517個のトークンを含む7つの人気のあるLSMを実験する。
本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。
我々は,グリッチトークンが埋め込み空間に集束する傾向にあるという観察に基づいて,効率的なグリッチトークン検出のための新しい反復的クラスタリング手法であるGlitchHunterを提案する。
評価の結果,提案手法は8つのオープンソース LLM 上で3つのベースライン法より優れていることがわかった。
我々の知る限り、グリッチトークンに関する最初の総合的研究を提示する。
我々の新しい検出は、LLMにおけるトークン化関連エラーの軽減に関する貴重な洞察を提供する。
関連論文リスト
- Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、様々なマルチモーダルタスクにおいて、計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
そこで我々はPruMergeを提案する。PruMergeは適応型視覚トークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? [34.27319941609499]
本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。
本報告では,最初のトークンのロジット分布は命令に応答するかどうかを決定するのに十分な情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-03-14T02:25:35Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。