論文の概要: Speculating LLMs' Chinese Training Data Pollution from Their Tokens
- arxiv url: http://arxiv.org/abs/2508.17771v1
- Date: Mon, 25 Aug 2025 08:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.68805
- Title: Speculating LLMs' Chinese Training Data Pollution from Their Tokens
- Title(参考訳): LLMの中国における学習データ汚染の推算
- Authors: Qingjie Zhang, Di Wang, Haoting Qian, Liu Yan, Tianwei Zhang, Ke Xu, Qi Li, Minlie Huang, Hewu Li, Han Qiu,
- Abstract要約: 汚染された中国人(PoC)トークンはポルノやオンラインギャンブルのような内容を示す。
GPTの語彙に基づくPoCトークンの形式的定義と分類について述べる。
我々は,LLMを微調整してPoCトークンを語彙でラベル付けすることで,PoCトークン検出装置を構築する。
- 参考スコア(独自算出の注目度): 59.325920108736454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokens are basic elements in the datasets for LLM training. It is well-known that many tokens representing Chinese phrases in the vocabulary of GPT (4o/4o-mini/o1/o3/4.5/4.1/o4-mini) are indicating contents like pornography or online gambling. Based on this observation, our goal is to locate Polluted Chinese (PoC) tokens in LLMs and study the relationship between PoC tokens' existence and training data. (1) We give a formal definition and taxonomy of PoC tokens based on the GPT's vocabulary. (2) We build a PoC token detector via fine-tuning an LLM to label PoC tokens in vocabularies by considering each token's both semantics and related contents from the search engines. (3) We study the speculation on the training data pollution via PoC tokens' appearances (token ID). Experiments on GPT and other 23 LLMs indicate that tokens widely exist while GPT's vocabulary behaves the worst: more than 23% long Chinese tokens (i.e., a token with more than two Chinese characters) are either porn or online gambling. We validate the accuracy of our speculation method on famous pre-training datasets like C4 and Pile. Then, considering GPT-4o, we speculate that the ratio of "Yui Hatano" related webpages in GPT-4o's training data is around 0.5%.
- Abstract(参考訳): トークンは、LLMトレーニングのためのデータセットの基本要素である。
GPT(4o/4o-mini/o1/o3/4.5/4.1/o4-mini)の語彙で中国語の句を表す多くのトークンがポルノやオンラインギャンブルのような内容を示していることはよく知られている。
本研究の目的は,LLMにおけるPolluted Chinese(PoC)トークンの発見と,PoCトークンの存在とトレーニングデータとの関係を検討することである。
1) GPTの語彙に基づくPoCトークンの形式的定義と分類について述べる。
2) 各トークンのセマンティクスと関連内容を検索エンジンから考慮し, 語彙中のPoCトークンをラベル付けするために, LLMを微調整してPoCトークン検出器を構築する。
(3) PoCトークンの外観(トークンID)によるトレーニングデータ汚染の推測について検討する。
GPTや他の23のLCMの実験では、GPTの語彙が最悪に振る舞う間にトークンが広く存在することが示されており、23%以上の長文のトークン(つまり2文字以上のトークン)はポルノかオンラインギャンブルである。
C4 や Pile のような有名な事前学習データセットに対する推測手法の精度を検証する。
そこで, GPT-4o のトレーニングデータにおける "Yui Hatano" 関連ページの比率は約 0.5% と推測した。
関連論文リスト
- Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。
従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。
我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文 参考訳(メタデータ) (2024-07-23T16:13:22Z) - Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs [20.1025293763531]
Llama-2-7b のトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。
本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。
論文 参考訳(メタデータ) (2024-06-28T17:54:47Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - CharPoet: A Chinese Classical Poetry Generation System Based on Token-free LLM [7.6361655389908965]
CharPoet(シャルポエ)は、中国の古典詩集である。
トークンフリーアーキテクチャは文字単位のキャラクタ方式で生成し,文字数を正確に制御する。
CharPoetが0.96以上のフォーマット精度を実現し、Juge-GPT-2(0.91)とGPT-4(0.38)を上回った
論文 参考訳(メタデータ) (2024-01-07T15:00:36Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。