論文の概要: KazByte: Adapting Qwen models to Kazakh via Byte-level Adapter
- arxiv url: http://arxiv.org/abs/2603.27859v1
- Date: Sun, 29 Mar 2026 20:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.146793
- Title: KazByte: Adapting Qwen models to Kazakh via Byte-level Adapter
- Title(参考訳): KazByte: Byte-level Adapterを通じてQwenモデルをKazakhに適応する
- Authors: Rauan Akylzhanov,
- Abstract要約: 大規模な言語モデルは、カザフ語テキストを同等の英語テキストよりも多くのトークンに断片化する。
この通貨税は計算を膨らませ、効果的な文脈窓を短くし、カザフ語の形態に関するモデルの握力を弱める。
凍結したQwen2.5-7Bの内部言語を学習する小さなアダプタを通して生のバイトを摂ることにより、トークン化器を完全にバイパスすることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models fragment Kazakh text into many more tokens than equivalent English text, because their tokenizers were built for high-resource languages. This tokenizer tax inflates compute, shortens the effective context window, and weakens the model's grip on Kazakh morphology. We propose to bypass the tokenizer entirely by feeding raw bytes through a small adapter that learns to speak the internal language of a frozen Qwen2.5-7B. Once the adapter is trained, we freeze it and fine-tune only the attention layers of Qwen on Kazakh text. Our central hypothesis is that this two-stage process -- first teach the interface, then adapt the model -- should match or exceed the accuracy of the original Qwen2.5-7B on standard Kazakh benchmarks. This report describes the ByteKaz architecture and training protocol. Empirical validation is ongoing; this version stakes the design and hypotheses for the record.
- Abstract(参考訳): 大規模な言語モデルは、カザフ語を同等の英語のテキストよりも多くのトークンに分解した。
この通貨税は計算を膨らませ、効果的な文脈窓を短くし、カザフ語の形態に関するモデルの握力を弱める。
凍結したQwen2.5-7Bの内部言語を学習する小さなアダプタを通して生のバイトを摂ることにより、トークン化器を完全にバイパスすることを提案する。
アダプタがトレーニングされたら、それを凍結して、カザフ語テキスト上のQwenの注意層のみを微調整します。
私たちの中心的な仮説は、この2段階のプロセス(まずインターフェイスを教え、次にモデルを適応させる)は、標準的なカザフスタンのベンチマークで元のQwen2.5-7Bの精度にマッチするか、超えるべきである、というものです。
本稿ではByteKazアーキテクチャとトレーニングプロトコルについて述べる。
実証的な検証が進行中であり、このバージョンでは、レコードの設計と仮説が守られている。
関連論文リスト
- Efficient Speech Translation through Model Compression and Knowledge Distillation [0.0]
本稿では,音声翻訳のための大規模音声モデルの効率的な展開という課題に対処する。
我々は,4ビット量子化(QLoRA)による低ランク適応,知識蒸留に基づく反復層プルーニングを用いる。
筆者ら(学生)モデルは,モデルパラメータとストレージフットプリントの両方を最大50%削減すると同時に,ドメイン内(教師)モデルの翻訳品質の97-100%を維持できる。
論文 参考訳(メタデータ) (2025-05-26T17:17:08Z) - Low-resource Machine Translation for Code-switched Kazakh-Russian Language Pair [4.445432761373431]
ラベル付きデータを持たないコードスイッチトしたカザフスタン語対のための機械翻訳モデルを構築する方法を提案する。
カザフ語とロシア語の並列コーパスを切り替えた最初の符号とその評価結果を示す。
論文 参考訳(メタデータ) (2025-03-25T18:46:30Z) - From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。
本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-04T21:19:20Z) - Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance [34.641079276516926]
我々は,0-gram言語モデリングとみなす圧縮の理論的重要性を論じる。
事前学習した言語モデルの下流での成功に対する圧縮の実証的重要性を示す。
本稿では,トークン化器の圧縮とモデル下流性能の相関関係を示す。
論文 参考訳(メタデータ) (2024-03-10T17:02:53Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。