論文の概要: Racka: Efficient Hungarian LLM Adaptation on Academic Infrastructure
- arxiv url: http://arxiv.org/abs/2601.01244v1
- Date: Sat, 03 Jan 2026 17:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.143207
- Title: Racka: Efficient Hungarian LLM Adaptation on Academic Infrastructure
- Title(参考訳): Racka: アカデミックインフラストラクチャ上での効率的なハンガリーのLLM適応
- Authors: Zsolt Csibi, Bence György Gortka, Natabara Gyöngyössy, Kornél Nagy, Dávid Márk Nemeskey, Martin Sallai, András Simonyi, András Márk Szekeres, Gábor Palkó,
- Abstract要約: ハンガリー語と高リソース言語のリソースギャップを埋めるために設計された、軽量で継続的に事前訓練された大規模言語モデルであるRackaを紹介します。
我々はQwen-3 4Bのバックボーンに低ランク適応(LoRA)によるパラメータ効率の継続事前学習を採用する。
トレーニング分布の整合性を向上するために,トークン化剤の交換と適応を行い,ハンガリーのトークン化肥大を著しく改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Racka, a lightweight, continually pretrained large language model designed to bridge the resource gap between Hungarian and high-resource languages such as English and German. Racka employs parameter-efficient continual pretraining via Low-Rank Adaptation (LoRA) on a Qwen-3 4B backbone, making the recipe practical on A100 (40GB)-based HPC clusters with low inter-node bandwidth. To better match the training distribution, we replace and adapt the tokenizer, achieving substantially improved tokenization fertility for Hungarian while maintaining competitive performance in English and German. The model is trained on 160B subword tokens drawn from a mixture of internet and high-quality curated sources, with a composition of 44% Hungarian, 24% English, 21% German, and 11% code. This data mix is chosen to mitigate catastrophic forgetting and preserve high-resource language capabilities during continual pretraining. Our preliminary results indicate modest but stable results in language adaptation.
- Abstract(参考訳): ラッカ(Racka)は、英語やドイツ語などの高リソース言語とハンガリー語のリソースギャップを埋めるために設計された、軽量で継続的に事前訓練された大きな言語モデルである。
Racka は Qwen-3 4B のバックボーンに低ランク適応 (LoRA) によるパラメータ効率の継続事前トレーニングを採用しており、A100 (40GB) ベースの HPC クラスタ上ではノード間帯域幅が低い。
トレーニング分布の整合性を向上するために,トークン化器の交換と適応を行い,英語とドイツ語の競争性能を維持しつつ,ハンガリー語に対するトークン化の施肥を大幅に改善した。
このモデルは、インターネットと高品質なキュレーションソースを混ぜた160Bのサブワードトークンでトレーニングされており、44%のハンガリー語、24%の英語、21%のドイツ語、11%のコードで構成されている。
このデータミキシングは、破滅的な忘れ込みを軽減し、継続的な事前訓練中に高リソース言語能力を維持するために選択される。
予備的な結果から,言語適応は緩やかだが安定した結果が得られた。
関連論文リスト
- Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian [0.7039577044513267]
Llama-GENBA-10Bは、大きな言語モデルにおける英語中心バイアスに対処する三言語基礎モデルである。
164Bトークン(82B英語、82Bドイツ語、80Mバイエルン語)で継続的に事前訓練されている。
論文 参考訳(メタデータ) (2025-09-06T10:12:52Z) - Improving Low-Resource Machine Translation via Cross-Linguistic Transfer from Typologically Similar High-Resource Languages [0.0]
本研究では,低リソース機械翻訳におけるトランスファー学習の言語間効果について検討した。
異なる家系にまたがる5つの言語対について実験を行った。
その結果,トランスファー学習はすべてのペアの翻訳品質を一貫して向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-27T16:34:56Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough [22.514682925362017]
我々は、Mistral-7Bをドイツ語やアラビア語に適応させることに重点を置いており、この設定における効率と有効性を改善するためにいくつかの手法を評価している。
我々のドイツのモデルは、この厳格な計算予算をMistral-7Bのベースと比較すると性能が劣る一方、アラビアのモデルはいくつかのベースラインを上回ります。
論文 参考訳(メタデータ) (2024-08-28T13:37:07Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer
models [0.0]
マルチラベルテキスト分類において,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換について検討した。
我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。
多言語事前訓練モデル(M-DistilBERT, M-BERT)の言語モデル微調整により, フランス語とドイツ語の相対的改善が32.0-34.94%, 76.15-87.54%となることがわかった。
論文 参考訳(メタデータ) (2021-11-28T16:25:04Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。