論文の概要: Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective
- arxiv url: http://arxiv.org/abs/2604.17814v1
- Date: Mon, 20 Apr 2026 05:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.701332
- Title: Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective
- Title(参考訳): コードLLMにおけるシークレットリークリスクの理解:トークン化の視点から
- Authors: Meifang Chen, Zhe Yang, Huang Nianchen, Yizhan Huang, Yichen Li, Zihan Li, Michael R. Lyu,
- Abstract要約: コードシークレットはソフトウェア開発者にとってセンシティブな資産であり、その漏洩は重大なサイバーセキュリティリスクを引き起こす。
本研究はまず,Byte-Pair のトークン化が秘密記憶の予期せぬ挙動を引き起こすことを明らかにした。
具体的には,CLLMが記憶し易い秘密がいくつか確認された。
- 参考スコア(独自算出の注目度): 38.026856765634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code secrets are sensitive assets for software developers, and their leakage poses significant cybersecurity risks. While the rapid development of AI code assistants powered by Code Large Language Models (CLLMs), CLLMs are shown to inadvertently leak such secrets due to a notorious memorization phenomenon. This study first reveals that Byte-Pair Encoding (BPE) tokenization leads to unexpected behavior of secret memorization, which we term as \textit{gibberish bias}. Specifically, we identified that some secrets are among the easiest for CLLMs to memorize. These secrets yield high character-level entropy, but low token-level entropy. Then, this paper supports the biased claim with numerical data. We identified that the roots of the bias are the token distribution shift between the CLLM training data and the secret data. We further discuss how gibberish bias manifests under the ``larger vocabulary'' trend. To conclude the paper, we discuss potential mitigation strategies and the broader implications on current tokenizer design.
- Abstract(参考訳): コードシークレットはソフトウェア開発者にとってセンシティブな資産であり、その漏洩は重大なサイバーセキュリティリスクを引き起こす。
CLLM(Code Large Language Models)を利用したAIコードアシスタントの開発が急速に進んでいる一方で、CLLMは悪名高い暗記現象のために、その秘密を不注意に漏らすことが示されている。
この研究は、Byte-Pair Encoding (BPE) トークン化が秘密記憶の予期せぬ振舞いを引き起こすことを最初に明らかにし、これを「textit{gibberish bias}」と呼ぶ。
具体的には,CLLMが記憶し易い秘密がいくつか確認された。
これらの秘密は高い文字レベルのエントロピーをもたらすが、トークンレベルのエントロピーは低い。
そこで,本論文では,数値データを用いたバイアスドクレームを支援する。
このバイアスの根源はCLLMトレーニングデータと秘密データの間のトークン分布シフトであることがわかった。
さらに,「大語彙」の傾向の下で,ジブベリの偏見がどのように現れるかについても論じる。
本稿は,現行のトークン化設計における潜在的な緩和戦略と,より広範な影響について論じる。
関連論文リスト
- LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - (Token-Level) InfoRMIA: Stronger Membership Inference and Memorization Assessment for LLMs [13.601386341584545]
大規模言語モデル(LLM)は、ほぼすべての利用可能なデータに基づいてトレーニングされている。
プライバシを定量化する標準的な方法は、メンバシップ推論攻撃である。
本稿では、会員推論の原理的情報理論の定式化であるInfoRMIAを紹介する。
論文 参考訳(メタデータ) (2025-10-07T04:59:49Z) - Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。
CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文 参考訳(メタデータ) (2025-09-17T07:12:35Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。
これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。
最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。
我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文 参考訳(メタデータ) (2025-06-16T04:33:48Z) - SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing [83.35231185111464]
ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。
従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。
提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
論文 参考訳(メタデータ) (2024-12-16T12:51:35Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Decoding Secret Memorization in Code LLMs Through Token-Level Characterization [6.92858396995673]
コード大言語モデル(LLM)は、プログラムコードの生成、理解、操作において顕著な能力を示した。
LLMは必然的に機密情報の記憶につながり、深刻なプライバシーリスクを生じさせる。
トークン確率に基づいて,コードLLMが生成した実・偽の秘密を特徴付ける新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T14:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。