論文の概要: HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model
- arxiv url: http://arxiv.org/abs/2605.11255v1
- Date: Mon, 11 May 2026 21:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.438303
- Title: HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model
- Title(参考訳): HEBATRON: ヘブライ語に特化したオープンウェイト混合言語モデル
- Authors: Noam Kayzer, Dan Revital, Ori Bar Joseph, Smadar Arvatz, Or Levi, Tal Geva, Shaltiel Shmidman, Amir DN Cohen, Noam Ordan, Omer Baruch, Kate Zinkovskaia, Zevi Apini, Sarel Weinberger,
- Abstract要約: Hebatron(ヘバトロン)は、NVIDIA Nemotron-3 sparse Mixture-of-Expertsアーキテクチャをベースに開発されたヘブライ語仕様のオープンウェイトな大規模言語モデルである。
トレーニングには、連続的なアンチフォッゲッティングアンカーを備えた3段階の簡単なカリキュラムが採用されている。
ヘバトロンはヘブライ語の推論平均73.8%を達成し、DictaLM-3.0-24B-Thinkingを上回っている。
- 参考スコア(独自算出の注目度): 2.409510231865256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Hebatron, a Hebrew-specialized open-weight large language model built on the NVIDIA Nemotron-3 sparse Mixture-of-Experts architecture. Training employs a three-phase easy-to-hard curriculum with continuous anti-forgetting anchoring, followed by supervised fine-tuning on 2 million bilingual Hebrew--English samples. The curriculum ordering alone yields a 3-point aggregate benchmark gain over the reversed configuration. Hebatron achieves a Hebrew reasoning average of 73.8\%, outperforming DictaLM-3.0-24B-Thinking (68.9\%) and remaining competitive with Gemma-3-27B-IT on GSM8K-HE and Israeli Trivia, while activating only 3B parameters per forward pass across a 30B-parameter model, delivering approximately 9 times higher inference throughput at native context lengths up to 65,536 tokens. To our knowledge, this is the first language-specific adaptation of the Nemotron-3 architecture for any target language, and the first open-weight Hebrew-specialized MoE model with native long-context support. Model weights are released openly to support further research in Hebrew and Semitic-language NLP.
- Abstract(参考訳): We present Hebatron, a hebrew-specialized open-weight large language model built on the NVIDIA Nemotron-3 sparse Mixture-of-Experts architecture。
トレーニングには3段階の簡単なカリキュラムと連続的なアンチフォッゲッティングアンカー、200万のバイリンガル・ヘブライ語のサンプルの微調整が採用されている。
カリキュラムの順序付けだけで、逆の設定よりも3ポイントのアグリゲートベンチマークゲインが得られる。
ヘバトロンはヘブライ語の推論平均73.8 %を達成し、DictaLM-3.0-24B-Thinking (68.9 %)を上回り、GSM8K-HEとイスラエル・トリヴィアのGemma-3-27B-ITと競合し続けた。
我々の知る限り、これはNemotron-3アーキテクチャをターゲット言語に適応した最初の言語であり、ネイティブな長文サポートを備えたヘブライ語特化MoEモデルである。
モデルウェイトは、ヘブライ語とセム語によるNLPのさらなる研究を支援するために、公開リリースされている。
関連論文リスト
- Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs [5.753786926820733]
Dicta-LM 3.0はヘブライ語と英語のテキストのコーパスに基づいて訓練された大規模言語モデルのオープンウェイトコレクションである。
本モデルを評価するため,ヘブライ語チャット-LLMの評価のためのベンチマークスイートを新たに導入した。
論文 参考訳(メタデータ) (2026-02-02T13:47:54Z) - Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought [23.847410628315544]
英語とターゲット言語を切り替える推論スキーマである**Language-Mixed CoT**を紹介する。
我々は6つのファミリー(Qwen2.5、Llama-3.1、Gemma-3など)でNinveモデル(4B-35B)を訓練する。
我々のベストモデル**KO-REAson-35B*は、平均スコア(64.0 pm 25)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-05T14:39:41Z) - Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian [0.7039577044513267]
Llama-GENBA-10Bは、大きな言語モデルにおける英語中心バイアスに対処する三言語基礎モデルである。
164Bトークン(82B英語、82Bドイツ語、80Mバイエルン語)で継続的に事前訓練されている。
論文 参考訳(メタデータ) (2025-09-06T10:12:52Z) - Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.5652085347547]
8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。
Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。
Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
論文 参考訳(メタデータ) (2024-12-05T15:41:06Z) - Qwen2 Technical Report [141.0766756297144]
本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。
Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超え、プロプライエタリモデルと比較して競争力のある性能を示している。
Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文 参考訳(メタデータ) (2024-07-15T12:35:42Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Introducing DictaLM -- A Large Generative Language Model for Modern
Hebrew [2.1547347528250875]
現代ヘブライ語に合わせた大規模言語モデルであるDictaLMについて紹介する。
ヘブライ語における研究・開発促進の取り組みとして,創造コモンズライセンスの下で基礎モデルと教科モデルの両方をリリースする。
論文 参考訳(メタデータ) (2023-09-25T22:42:09Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - LLaMA: Open and Efficient Foundation Language Models [62.94749698865241]
LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-27T17:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。