論文の概要: Problematic Tokens: Tokenizer Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11214v3
- Date: Thu, 14 Nov 2024 03:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:33.435909
- Title: Problematic Tokens: Tokenizer Bias in Large Language Models
- Title(参考訳): 問題的トークン: 大規模言語モデルにおけるTokenizerバイアス
- Authors: Jin Yang, Zhiqiang Wang, Yanbin Lin, Zunduo Zhao,
- Abstract要約: 本稿では,大きな言語モデルに固有のトークン化プロセスに相違点のルーツを辿る。
具体的には、トークン化プロセスのスピードアップによく使われるトークン化語が、英語以外の言語を不十分に表現する方法を探求する。
我々は,GPT-4oのトークン化機構を解明し,その簡易なトークン処理手法が関連するセキュリティや倫理的問題をいかに増幅するかを説明する。
- 参考スコア(独自算出の注目度): 4.7245503050933335
- License:
- Abstract: Recent advancements in large language models(LLMs), such as GPT-4 and GPT-4o, have shown exceptional performance, especially in languages with abundant resources like English, thanks to extensive datasets that ensure robust training. Conversely, these models exhibit limitations when processing under-resourced languages such as Chinese and Korean, where issues including hallucinatory responses remain prevalent. This paper traces the roots of these disparities to the tokenization process inherent to these models. Specifically, it explores how the tokenizers vocabulary, often used to speed up the tokenization process and reduce tokens but constructed independently of the actual model training data, inadequately represents non-English languages. This misrepresentation results in the propagation of under-trained or untrained tokens, which perpetuate biases and pose serious concerns related to data security and ethical standards. We aim to dissect the tokenization mechanics of GPT-4o, illustrating how its simplified token-handling methods amplify these risks and offer strategic solutions to mitigate associated security and ethical issues. Through this study, we emphasize the critical need to rethink tokenization frameworks to foster more equitable and secure AI technologies. The code and data are available at https://github.com/yeyimilk/LLMGPT4o
- Abstract(参考訳): GPT-4やGPT-4oのような大規模言語モデル(LLM)の最近の進歩は、特に英語のような豊富なリソースを持つ言語では、堅牢なトレーニングを保証する広範なデータセットのおかげで、例外的な性能を示している。
逆に、これらのモデルでは、幻覚反応などの問題が相次ぎ、中国語や韓国語などの未資源言語を処理する際に制限がある。
本稿では,これらの相違点のルーツを,これらのモデル固有のトークン化プロセスに遡る。
具体的には、トークン化プロセスのスピードアップやトークンの削減によく使用されるトークン化の語彙について検討するが、実際のモデルトレーニングデータとは独立して構築され、英語以外の言語を不適切に表現している。
この誤表現により、未訓練または未訓練のトークンが伝播し、バイアスが持続し、データセキュリティや倫理基準に深刻な懸念が生じる。
我々は,GPT-4oのトークン化機構を解明し,その単純化されたトークン処理手法がこれらのリスクを増幅し,関連するセキュリティや倫理的問題を緩和するための戦略的ソリューションを提供することを目的としている。
この研究を通じて、より公平でセキュアなAI技術を育むために、トークン化フレームワークを再考する重要な必要性を強調した。
コードとデータはhttps://github.com/yeyimilk/LLMGPT4oで公開されている。
関連論文リスト
- Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) [0.09374652839580183]
本稿では,最先端の大規模言語モデル(LLM)が採用するトークン化手法について述べる。
本研究は,これらのモデル間で観測されるトークン化の多様性を評価し,サブワードトークン化における言語表現の課題について検討する。
本研究の目的は、この領域以降のAIサービスの開発において、一般化可能な国際化(I18N)の実践を促進することである。
論文 参考訳(メタデータ) (2024-10-04T16:18:29Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文 参考訳(メタデータ) (2023-09-12T13:51:29Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。
TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文 参考訳(メタデータ) (2021-11-07T22:54:23Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。