論文の概要: When Every Token Counts: Optimal Segmentation for Low-Resource Language Models
- arxiv url: http://arxiv.org/abs/2412.06926v1
- Date: Mon, 09 Dec 2024 19:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:41.834502
- Title: When Every Token Counts: Optimal Segmentation for Low-Resource Language Models
- Title(参考訳): 低リソース言語モデルのための最適セグメンテーション
- Authors: Bharath Raj S, Garvit Suri, Vikrant Dewangan, Raghav Sonavane,
- Abstract要約: 最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Traditional greedy tokenization methods have been a critical step in Natural Language Processing (NLP), influencing how text is converted into tokens and directly impacting model performance. While subword tokenizers like Byte-Pair Encoding (BPE) are widely used, questions remain about their optimality across model scales and languages. In this work, we demonstrate through extensive experiments that an optimal BPE configuration significantly reduces token count compared to greedy segmentation, yielding improvements in token-saving percentages and performance benefits, particularly for smaller models. We evaluate tokenization performance across various intrinsic and extrinsic tasks, including generation and classification. Our findings suggest that compression-optimized tokenization strategies could provide substantial advantages for multilingual and low-resource language applications, highlighting a promising direction for further research and inclusive NLP.
- Abstract(参考訳): 従来のgreedyトークン化手法は自然言語処理(NLP)の重要なステップであり、テキストがトークンに変換され、モデルのパフォーマンスに直接影響する。
Byte-Pair Encoding (BPE)のようなサブワードトークンは広く使われているが、モデルスケールや言語にまたがる最適化については疑問が残る。
本研究では, 最適BPE構成は, グレディセグメンテーションに比べてトークン数を大幅に削減し, 特に小型モデルにおいて, トークンの節約率と性能改善をもたらすことを示す。
生成・分類を含む各種本質的・外生的タスクにおけるトークン化性能を評価した。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆され,さらなる研究と包括的NLPの方向性が示唆された。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Improving Korean NLP Tasks with Linguistically Informed Subword
Tokenization and Sub-character Decomposition [6.767341847275751]
本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。
我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる
本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-11-07T12:08:21Z) - Adaptive Gating in Mixture-of-Experts based Language Models [7.936874532105228]
モデルスケーリングのための有望なソリューションとして,Sparsely activated mixed-of-experts (MoE) が登場した。
本稿では,様々な専門家がトークンを処理できるフレキシブルなトレーニング戦略であるMoEで適応ゲーティングを導入する。
論文 参考訳(メタデータ) (2023-10-11T04:30:18Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - Neural Token Segmentation for High Token-Internal Complexity [7.569526565230962]
原文をワード単位に変換することは、NLPパイプラインにとって重要な前処理ステップである。
本稿では,文脈化トークン表現とチャレベルデコーディングを組み合わせたニューラルセグメンテーションモデルを提案する。
我々のモデルはヘブライ語とアラビア語の分節精度を最先端と比較して大幅に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-21T10:07:17Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。