Fugu-MT 論文翻訳(概要): MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization

論文の概要: MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization

arxiv url: http://arxiv.org/abs/2407.08818v2
Date: Sun, 17 Nov 2024 00:41:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.479266
Title: MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization
Title（参考訳）: MAGNET:適応的なグラディエントに基づくトークン化による言語モデルの多言語フェアネスの改善
Authors: Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Valentin Hofmann, Tomasz Limisiewicz, Yulia Tsvetkov, Noah A. Smith,
Abstract要約: マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
参考スコア（独自算出の注目度）: 81.83460411131931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In multilingual settings, non-Latin scripts and low-resource languages are usually disadvantaged in terms of language models' utility, efficiency, and cost. Specifically, previous studies have reported multiple modeling biases that the current tokenization algorithms introduce to non-Latin script languages, the main one being over-segmentation. In this work, we propose MAGNET; multilingual adaptive gradient-based tokenization to reduce over-segmentation via adaptive gradient-based subword tokenization. MAGNET learns to predict segment boundaries between byte tokens in a sequence via sub-modules within the model, which act as internal boundary predictors (tokenizers). Previous gradient-based tokenization methods aimed for uniform compression across sequences by integrating a single boundary predictor during training and optimizing it end-to-end through stochastic reparameterization alongside the next token prediction objective. However, this approach still results in over-segmentation for non-Latin script languages in multilingual settings. In contrast, MAGNET offers a customizable architecture where byte-level sequences are routed through language-script-specific predictors, each optimized for its respective language script. This modularity enforces equitable segmentation granularity across different language scripts compared to previous methods. Through extensive experiments, we demonstrate that in addition to reducing segmentation disparities, MAGNET also enables faster language modelling and improves downstream utility.
Abstract（参考訳）: マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。特に、以前の研究では、現在のトークン化アルゴリズムが非ラテン語のスクリプト言語に導入している複数のモデリングバイアスが報告されている。本研究では,適応的勾配に基づくサブワードトークン化によるオーバーセグメンテーションを低減するために,多言語適応型勾配ベースのトークン化であるMAGNETを提案する。 MAGNETは、モデル内のサブモジュールを介してシーケンス内のバイトトークン間のセグメント境界を予測し、内部境界予測器(トークン化器)として機能する。トレーニング中に1つの境界予測器を統合し、次のトークン予測目的とともに確率的再パラメータ化によってエンドツーエンドに最適化することにより、シーケンス間の均一な圧縮を目的とした、従来型の勾配ベースのトークン化手法。しかし、このアプローチは多言語設定で非ラテン語のスクリプト言語を過剰に分離する。対照的に、MAGNETはカスタマイズ可能なアーキテクチャを提供しており、バイトレベルのシーケンスは言語固有の予測子を通してルーティングされ、それぞれがそれぞれの言語スクリプトに最適化されている。このモジュラリティは、以前の方法と比較して、異なる言語スクリプト間の公平なセグメンテーションの粒度を強制する。広範な実験により,セグメンテーションの格差を減らすことに加えて,MAGNETはより高速な言語モデリングを可能にし,下流のユーティリティを向上させることを実証した。

関連論文リスト

FLEXITOKENS: Flexible Tokenization for Evolving Language Models [3.2749495104311874]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文参考訳（メタデータ） (2025-07-17T01:55:41Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文参考訳（メタデータ） (2025-04-21T19:40:32Z)
MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。 CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文参考訳（メタデータ） (2025-04-14T15:44:45Z)
When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-12-09T19:11:54Z)
Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文参考訳（メタデータ） (2024-11-27T17:51:58Z)
MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。各文字を特定のバイトにマッピングするUnicodeエンコーディングは、新しい言語においても未知の単語の出現を排除している。局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。本稿では,アダプティブ・マルチスケール・ハイド・アテンション(Ada-MSHA)を提案する。
論文参考訳（メタデータ） (2024-11-03T08:15:43Z)
No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文参考訳（メタデータ） (2024-04-24T08:52:40Z)
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文参考訳（メタデータ） (2024-03-05T13:55:16Z)
Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-19T12:26:57Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Efficient Transformers with Dynamic Token Pooling [11.28381882347617]
言語モデルに動的プール機構を組み、セグメント境界を自己回帰的に予測する。その結果、動的プーリングはバニラ変換器よりも高速かつ高精度であることがわかった。
論文参考訳（メタデータ） (2022-11-17T18:39:23Z)
Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文参考訳（メタデータ） (2022-05-12T17:59:56Z)
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文参考訳（メタデータ） (2022-04-22T16:50:49Z)
Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。 XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文参考訳（メタデータ） (2021-03-15T16:07:42Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。