論文の概要: Multilingual Tokenization through the Lens of Indian Languages: Challenges and Insights
- arxiv url: http://arxiv.org/abs/2506.17789v1
- Date: Sat, 21 Jun 2025 18:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.58648
- Title: Multilingual Tokenization through the Lens of Indian Languages: Challenges and Insights
- Title(参考訳): インド語のレンズによる多言語化 : 課題と展望
- Authors: N J Karthika, Maharaj Brahma, Rohit Saluja, Ganesh Ramakrishnan, Maunendra Sankar Desarkar,
- Abstract要約: 本稿では17言語にわたるトークン化戦略の本質的な評価について述べる。
ボトムアップとトップダウンのトークン化アルゴリズムのトレードオフを定量化する。
極端に低リソースな言語は、関連する高リソースな言語で訓練されたトークン化ツールの恩恵を受けることができることを示す。
- 参考スコア(独自算出の注目度): 27.369278566345074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization plays a pivotal role in multilingual NLP. However, existing tokenizers are often skewed towards high-resource languages, limiting their effectiveness for linguistically diverse and morphologically rich languages such as those in the Indian subcontinent. This paper presents a comprehensive intrinsic evaluation of tokenization strategies across 17 Indian languages. We quantify the trade-offs between bottom-up and top-down tokenizer algorithms (BPE and Unigram LM), effects of vocabulary sizes, and compare strategies of multilingual vocabulary construction such as joint and cluster-based training. We also show that extremely low-resource languages can benefit from tokenizers trained on related high-resource languages. Our study provides practical insights for building more fair, efficient, and linguistically informed tokenizers for multilingual NLP.
- Abstract(参考訳): トークン化は多言語NLPにおいて重要な役割を果たす。
しかし、既存のトークン化剤は、しばしば高リソース言語に傾き、インド亜大陸のような言語学的に多様で形態学的に豊かな言語に対する有効性を制限している。
本稿では17言語にわたるトークン化戦略の包括的内在的評価について述べる。
ボトムアップとトップダウンのトークン化アルゴリズム(BPEとUnigram LM)のトレードオフ,語彙サイズの影響を定量化し,共同学習やクラスタベーストレーニングなどの多言語語彙構築の戦略を比較する。
また、極端に低リソースな言語は、関連する高リソースな言語で訓練されたトークン化ツールの恩恵を受けることができることを示す。
本研究は,多言語NLPのための,より公平で,効率的で,言語的に知名度の高いトークン化ツールを構築するための実践的な洞察を提供する。
関連論文リスト
- Tokenization Matters: Improving Zero-Shot NER for Indic Languages [2.964265227875254]
トークン化は自然言語処理(NLP)の重要な構成要素である
この研究は、BPE、SentencePiece、およびIndic言語を用いた文字レベルのトークン化戦略を体系的に比較する。
その結果、SentencePieceは低リソースのIndic言語において、NERのBPEよりも一貫して優れたパフォーマンスのアプローチであることがわかった。
論文 参考訳(メタデータ) (2025-04-23T17:28:38Z) - CoCo-CoLa: Evaluating and Improving Language Adherence in Multilingual LLMs [1.2057938662974816]
大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。
多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文 参考訳(メタデータ) (2025-02-18T03:03:53Z) - How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。
コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。
BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文 参考訳(メタデータ) (2025-02-06T18:08:14Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Multilingual Evaluation of Semantic Textual Relatedness [0.0]
意味的テクスト関係性(STR)は、言語的要素や話題、感情、視点といった非言語的要素を考慮して、表面的な単語重複を越えている。
以前のNLP研究は主に英語に焦点を合わせており、言語間の適用性を制限している。
Marathi、Hindi、スペイン語、英語でSTRを探索し、情報検索や機械翻訳などの可能性を解き放つ。
論文 参考訳(メタデータ) (2024-04-13T17:16:03Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。