Fugu-MT 論文翻訳(概要): Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection

論文の概要: Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection

arxiv url: http://arxiv.org/abs/2404.09894v2
Date: Tue, 16 Apr 2024 07:06:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:47:37.191017
Title: Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection
Title（参考訳）: 大規模言語モデルにおけるGlitch Tokens:分類分類と効果的な検出
Authors: Yuxi Li, Yi Liu, Gelei Deng, Ying Zhang, Wenjia Song, Ling Shi, Kailong Wang, Yuekang Li, Yang Liu, Haoyu Wang,
Abstract要約: 確立されたトークン化者によって生成される異常トークンである"グリッチトークン"の現象を紹介し,検討する。本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。本稿では,新しいクラスタリング手法であるGlitchHunterを提案する。
参考スコア（独自算出の注目度）: 23.382844182972807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the expanding application of Large Language Models (LLMs) in various domains, it becomes imperative to comprehensively investigate their unforeseen behaviors and consequent outcomes. In this study, we introduce and systematically explore the phenomenon of "glitch tokens", which are anomalous tokens produced by established tokenizers and could potentially compromise the models' quality of response. Specifically, we experiment on seven top popular LLMs utilizing three distinct tokenizers and involving a totally of 182,517 tokens. We present categorizations of the identified glitch tokens and symptoms exhibited by LLMs when interacting with glitch tokens. Based on our observation that glitch tokens tend to cluster in the embedding space, we propose GlitchHunter, a novel iterative clustering-based technique, for efficient glitch token detection. The evaluation shows that our approach notably outperforms three baseline methods on eight open-source LLMs. To the best of our knowledge, we present the first comprehensive study on glitch tokens. Our new detection further provides valuable insights into mitigating tokenization-related errors in LLMs.
Abstract（参考訳）: 様々な領域におけるLarge Language Models (LLMs) の適用が拡大するにつれ、その予期せぬ振る舞いやそれに伴う成果を包括的に調査することが義務づけられる。本研究では,確立されたトークン化器が生成する異常トークンである"グリッチトークン"の現象を紹介し,系統的に検討し,モデルの品質を損なう可能性がある。具体的には、3つの異なるトークン化剤を使用し、合計182,517個のトークンを含む7つの人気のあるLSMを実験する。本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。我々は,グリッチトークンが埋め込み空間に集束する傾向にあるという観察に基づいて,効率的なグリッチトークン検出のための新しい反復的クラスタリング手法であるGlitchHunterを提案する。評価の結果,提案手法は8つのオープンソース LLM 上で3つのベースライン法より優れていることがわかった。我々の知る限り、グリッチトークンに関する最初の総合的研究を提示する。我々の新しい検出は、LLMにおけるトークン化関連エラーの軽減に関する貴重な洞察を提供する。

関連論文リスト

Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding [33.33247964758369]
我々は,トークンインタラクションプロセスから直接適切なコンテキスト情報を抽出できると主張している。復号化戦略における因果推論に着想を得て、因果マスクを活用してマルチモーダルトークン間の情報伝達を確立することを提案する。 FarSightは汎用的なプラグ・アンド・プレイ・デコード方式で,外部トークンからの注意干渉を低減する。
論文参考訳（メタデータ） (2025-05-22T13:19:57Z)
Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。理論的な洞察と経験的検証の両方を、近年のモデルで提供します。量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文参考訳（メタデータ） (2025-02-10T20:09:16Z)
Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。 4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文参考訳（メタデータ） (2024-12-10T22:57:57Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Zero-Shot Detection of LLM-Generated Text using Token Cohesiveness [6.229124658686219]
我々は,既存のゼロショット検出器を改善するために,トークン凝集性をプラグアンドプレイモジュールとして利用する汎用的なデュアルチャネル検出パラダイムを開発した。トークンの凝集度を計算するために,ランダムなトークンの削除と意味的差分測定を数ラウンドで行う。各種データセット,ソースモデル,評価設定の4つの最先端ベース検出器を用いた実験は,提案手法の有効性と汎用性を示す。
論文参考訳（メタデータ） (2024-09-25T13:18:57Z)
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models [17.633722815221983]
大規模言語モデル(LLM)は、自然言語処理の分野で前例のない成功を収めた。最近の研究では、モデルの語彙空間に異常トークンのクラスを発見し、それらを「グリッチトークン」と名付けた。本研究では,グリッチトークンの理解を深め,その検出と緩和のための手法を提案する。
論文参考訳（メタデータ） (2024-08-09T07:19:53Z)
Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [20.979790612689992]
大規模視覚言語モデル(LVLM)の研究において、Mixture-of-Experts(MoE)が注目を集めている。 LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。本稿ではトークンレベルの勾配解析に基づく新しい手法,すなわち解決トークンのグラディエント・コンフリクト(STGC)を提案する。
論文参考訳（メタデータ） (2024-06-28T13:20:17Z)
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文参考訳（メタデータ） (2024-06-18T13:17:26Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文参考訳（メタデータ） (2023-11-29T18:57:07Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-06T06:27:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。