Fugu-MT 論文翻訳(概要): Performance Evaluation of Tokenizers in Large Language Models for the Assamese Language

論文の概要: Performance Evaluation of Tokenizers in Large Language Models for the Assamese Language

arxiv url: http://arxiv.org/abs/2410.03718v1
Date: Sat, 28 Sep 2024 04:00:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:28:28.242046
Title: Performance Evaluation of Tokenizers in Large Language Models for the Assamese Language
Title（参考訳）: アサメ語用大規模言語モデルにおけるトケナイザの性能評価
Authors: Sagar Tamang, Dibya Jyoti Bora,
Abstract要約: 本研究の目的は,インド・アサメ語における5つの言語モデル (LLM) におけるトークン化器の性能を理解することである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training of a tokenizer plays an important role in the performance of deep learning models. This research aims to understand the performance of tokenizers in five state-of-the-art (SOTA) large language models (LLMs) in the Assamese language of India. The research is important to understand the multi-lingual support for a low-resourced language such as Assamese. Our research reveals that the tokenizer of SUTRA from Two AI performs the best with an average Normalized Sequence Length (NSL) value of 0.45, closely followed by the tokenizer of GPT-4o from Open AI with an average NSL value of 0.54, followed by Gemma 2, Meta Llama 3.1, and Mistral Large Instruct 2407 with an average NSL value of 0.82, 1.4, and 1.48 respectively.
Abstract（参考訳）: トークンゲータのトレーニングは、ディープラーニングモデルのパフォーマンスにおいて重要な役割を果たす。本研究の目的は,インド・アサメ語における5つの言語モデル (LLM) におけるトークン化器の性能を理解することである。この研究は、Assameseのような低リソース言語に対する多言語サポートを理解することが重要である。 2つのAIのSUTRAのトークン化は平均正規化シーケンス長(NSL)が0.45、続いてOpen AIのGPT-4oが平均NSLが0.54、Gemma 2、Meta Llama 3.1、Mistral Large Instruct 2407が平均NSLが0.82、1.4、および1.48である。

関連論文リスト

Controlling Difficulty of Generated Text for AI-Assisted Language Learning [37.329743597873104]
大規模言語モデル(LLM)は、ほぼネイティブに近いレベルの複雑さでテキストを生成するため、初心者の学習者には不適当である。制御可能な生成技術がLLM出力に適応して絶対初心者を支援することができるかどうかを検討する。以上の結果から,プロンプトだけでは出力の難易度を制御できないが,将来的な識別器の使用は出力の理解性を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-06-04T15:38:21Z)
UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文参考訳（メタデータ） (2025-02-24T08:38:21Z)
A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context [0.9074663948713616]
メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
論文参考訳（メタデータ） (2025-01-12T16:17:25Z)
SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文参考訳（メタデータ） (2025-01-07T10:29:43Z)
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages [0.0]
本稿では,12の大規模言語モデル (LLM) が使用するトークンの包括的評価を行った。 SUTRAトークンライザは、いくつかのIndic特化モデルを含む他のモデルよりも優れており、14言語で優れている。本研究は,多言語およびインデックス中心モデルを対象としたトークン化戦略の開発において重要であることを示す。
論文参考訳（メタデータ） (2024-11-19T05:37:17Z)
Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文参考訳（メタデータ） (2024-06-30T21:40:26Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-05-24T11:30:37Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Assessing Translation capabilities of Large Language Models involving English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文参考訳（メタデータ） (2023-11-15T18:58:19Z)
LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文参考訳（メタデータ） (2023-09-11T14:13:09Z)
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。は、アメリカ大陸の10の原住民の言語である。 XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。 XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文参考訳（メタデータ） (2021-04-18T05:32:28Z)
Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文参考訳（メタデータ） (2020-10-15T18:34:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。