Fugu-MT 論文翻訳(概要): Large Language Model Tokenizer Bias: A Case Study and Solution on GPT-4o

論文の概要: Large Language Model Tokenizer Bias: A Case Study and Solution on GPT-4o

arxiv url: http://arxiv.org/abs/2406.11214v2
Date: Sun, 11 Aug 2024 01:17:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 21:03:04.657304
Title: Large Language Model Tokenizer Bias: A Case Study and Solution on GPT-4o
Title（参考訳）: 大規模言語モデル Tokenizer バイアス: GPT-4o のケーススタディと解法
Authors: Jin Yang, Zhiqiang Wang, Yanbin Lin, Zunduo Zhao,
Abstract要約: GPT-4 と GPT-4o は英語のような豊富な資源を持つ言語では例外的な性能を示している。これらのモデルは、中国語や韓国語などの未資源言語を処理する際の制限を示す。本稿では,これらの相違点のルーツを,これらのモデル固有のトークン化プロセスに遡る。
参考スコア（独自算出の注目度）: 4.7245503050933335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs), such as GPT-4 and GPT-4o, have shown exceptional performance, especially in languages with abundant resources like English, thanks to extensive datasets that ensure robust training. Conversely, these models exhibit limitations when processing under-resourced languages such as Chinese and Korean, where issues including hallucinatory responses remain prevalent. This paper traces the roots of these disparities to the tokenization process inherent to these models. Specifically, it explores how the tokenizer vocabulary, often used to speed up the tokenization process and reduce tokens but constructed independently of the actual model training data, inadequately represents non-English languages. This misrepresentation results in the propagation of 'under-trained' or 'untrained' tokens, which perpetuate biases and pose serious concerns related to data security and ethical standards. We aim to dissect the tokenization mechanics of GPT-4o, illustrating how its simplified token-handling methods amplify these risks and offer strategic solutions to mitigate associated security and ethical issues. Through this study, we emphasize the critical need to rethink tokenization frameworks to foster more equitable and secure AI technologies.
Abstract（参考訳）: GPT-4やGPT-4oのような大規模言語モデル(LLM)の最近の進歩は、特に英語のような豊富なリソースを持つ言語では、堅牢なトレーニングを保証する広範なデータセットのおかげで、例外的な性能を示している。逆に、これらのモデルでは、幻覚反応などの問題が相次ぎ、中国語や韓国語などの未資源言語を処理する際に制限がある。本稿では,これらの相違点のルーツを,これらのモデル固有のトークン化プロセスに遡る。具体的には、トークン化プロセスのスピードアップとトークンの削減によく使用されるトークン化語彙について検討するが、実際のモデルトレーニングデータとは独立して構築され、英語以外の言語を不適切に表現している。この誤表現は、バイアスを持続させ、データセキュリティや倫理基準に関する深刻な懸念を生じさせる'アンダートレーニング'や'アントレーニング'トークンの伝播をもたらす。我々は,GPT-4oのトークン化機構を解明し,その単純化されたトークン処理手法がこれらのリスクを増幅し,関連するセキュリティや倫理的問題を緩和するための戦略的ソリューションを提供することを目的としている。この研究を通じて、より公平でセキュアなAI技術を育むために、トークン化フレームワークを再考する重要な必要性を強調した。

関連論文リスト

Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。本稿では,トークン固有の特徴を利用して,言語モデリングのトレーニングデータを保護する軽量かつ効果的な経験的プライバシ保護を提案する。
論文参考訳（メタデータ） (2025-02-27T03:37:45Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文参考訳（メタデータ） (2024-12-14T18:18:52Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) [0.09374652839580183]
本稿では,最先端の大規模言語モデル(LLM)が採用するトークン化手法について述べる。本研究は,これらのモデル間で観測されるトークン化の多様性を評価し,サブワードトークン化における言語表現の課題について検討する。本研究の目的は、この領域以降のAIサービスの開発において、一般化可能な国際化(I18N)の実践を促進することである。
論文参考訳（メタデータ） (2024-10-04T16:18:29Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文参考訳（メタデータ） (2024-05-08T20:37:56Z)
The first step is the hardest: Pitfalls of Representing and Tokenizing Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文参考訳（メタデータ） (2023-09-12T13:51:29Z)
Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文参考訳（メタデータ） (2023-05-24T11:56:20Z)
Mitigating Data Imbalance and Representation Degeneration in Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。 Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文参考訳（メタデータ） (2023-05-22T07:31:08Z)
Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。これにより、大規模なデータセットで数十億の外国語トークンが生成される。そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文参考訳（メタデータ） (2022-04-17T23:56:54Z)
TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。 TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文参考訳（メタデータ） (2021-11-07T22:54:23Z)
Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文参考訳（メタデータ） (2021-10-04T08:51:36Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文参考訳（メタデータ） (2021-03-14T22:12:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。