論文の概要: Problematic Tokens: Tokenizer Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11214v3
- Date: Thu, 14 Nov 2024 03:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:33.435909
- Title: Problematic Tokens: Tokenizer Bias in Large Language Models
- Title(参考訳): 問題的トークン: 大規模言語モデルにおけるTokenizerバイアス
- Authors: Jin Yang, Zhiqiang Wang, Yanbin Lin, Zunduo Zhao,
- Abstract要約: 本稿では,大きな言語モデルに固有のトークン化プロセスに相違点のルーツを辿る。
具体的には、トークン化プロセスのスピードアップによく使われるトークン化語が、英語以外の言語を不十分に表現する方法を探求する。
我々は,GPT-4oのトークン化機構を解明し,その簡易なトークン処理手法が関連するセキュリティや倫理的問題をいかに増幅するかを説明する。
- 参考スコア(独自算出の注目度): 4.7245503050933335
- License:
- Abstract: Recent advancements in large language models(LLMs), such as GPT-4 and GPT-4o, have shown exceptional performance, especially in languages with abundant resources like English, thanks to extensive datasets that ensure robust training. Conversely, these models exhibit limitations when processing under-resourced languages such as Chinese and Korean, where issues including hallucinatory responses remain prevalent. This paper traces the roots of these disparities to the tokenization process inherent to these models. Specifically, it explores how the tokenizers vocabulary, often used to speed up the tokenization process and reduce tokens but constructed independently of the actual model training data, inadequately represents non-English languages. This misrepresentation results in the propagation of under-trained or untrained tokens, which perpetuate biases and pose serious concerns related to data security and ethical standards. We aim to dissect the tokenization mechanics of GPT-4o, illustrating how its simplified token-handling methods amplify these risks and offer strategic solutions to mitigate associated security and ethical issues. Through this study, we emphasize the critical need to rethink tokenization frameworks to foster more equitable and secure AI technologies. The code and data are available at https://github.com/yeyimilk/LLMGPT4o
- Abstract(参考訳): GPT-4やGPT-4oのような大規模言語モデル(LLM)の最近の進歩は、特に英語のような豊富なリソースを持つ言語では、堅牢なトレーニングを保証する広範なデータセットのおかげで、例外的な性能を示している。
逆に、これらのモデルでは、幻覚反応などの問題が相次ぎ、中国語や韓国語などの未資源言語を処理する際に制限がある。
本稿では,これらの相違点のルーツを,これらのモデル固有のトークン化プロセスに遡る。
具体的には、トークン化プロセスのスピードアップやトークンの削減によく使用されるトークン化の語彙について検討するが、実際のモデルトレーニングデータとは独立して構築され、英語以外の言語を不適切に表現している。
この誤表現により、未訓練または未訓練のトークンが伝播し、バイアスが持続し、データセキュリティや倫理基準に深刻な懸念が生じる。
我々は,GPT-4oのトークン化機構を解明し,その単純化されたトークン処理手法がこれらのリスクを増幅し,関連するセキュリティや倫理的問題を緩和するための戦略的ソリューションを提供することを目的としている。
この研究を通じて、より公平でセキュアなAI技術を育むために、トークン化フレームワークを再考する重要な必要性を強調した。
コードとデータはhttps://github.com/yeyimilk/LLMGPT4oで公開されている。
関連論文リスト
- Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) [0.09374652839580183]
本稿では,最先端の大規模言語モデル(LLM)が採用するトークン化手法について述べる。
本研究は,これらのモデル間で観測されるトークン化の多様性を評価し,サブワードトークン化における言語表現の課題について検討する。
本研究の目的は、この領域以降のAIサービスの開発において、一般化可能な国際化(I18N)の実践を促進することである。
論文 参考訳(メタデータ) (2024-10-04T16:18:29Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles [2.134057414078079]
大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T23:57:44Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Sensitivity and Robustness of Large Language Models to Prompt Template
in Japanese Text Classification Tasks [0.0]
重要な問題は、Promptテンプレートに対する大きな言語モデルの不適切な感度と堅牢性である。
本稿では,複数の代表言語モデル (LLM) と広く活用されている事前学習モデル (PLM) の包括的評価を通じて,この問題を考察する。
Promptテンプレートの文構造の変更により, GPT-4の精度は49.21から25.44に大幅に低下した。
論文 参考訳(メタデータ) (2023-05-15T15:19:08Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。