論文の概要: Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs
- arxiv url: http://arxiv.org/abs/2602.02104v1
- Date: Mon, 02 Feb 2026 13:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.177608
- Title: Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs
- Title(参考訳): Dicta-LM 3.0: Hebrew Sovereign LLMのフロンティアを進化させる
- Authors: Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel,
- Abstract要約: Dicta-LM 3.0はヘブライ語と英語のテキストのコーパスに基づいて訓練された大規模言語モデルのオープンウェイトコレクションである。
本モデルを評価するため,ヘブライ語チャット-LLMの評価のためのベンチマークスイートを新たに導入した。
- 参考スコア(独自算出の注目度): 5.753786926820733
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-weight LLMs have been released by frontier labs; however, sovereign Large Language Models (for languages other than English) remain low in supply yet high in demand. Training large language models (LLMs) for low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce Dicta-LM 3.0: an open-weight collection of LLMs trained on substantially-sized corpora of Hebrew and English texts. The model is released in three sizes: 24B - adapted from the Mistral-Small-3.1 base model, 12B - adapted from the NVIDIA Nemotron Nano V2 model, and 1.7B - adapted from the Qwen3-1.7B base model. We are releasing multiple variants of each model, each with a native context length of 65k tokens; base model and chat model with tool-calling support. To rigorously evaluate our models, we introduce a new benchmark suite for evaluation of Hebrew chat-LLMs, covering a diverse set of tasks including Translation, Summarization, Winograd, Israeli Trivia, and Diacritization (nikud). Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.
- Abstract(参考訳): オープンウェイト LLM はフロンティア研究所によってリリースされているが、(英語以外の言語については)主権を持つ大規模言語モデルは需要がまだ低いままである。
Hebrewのような低リソース言語のための大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
本稿では,ヘブライ語と英語のテキストのコーパスに基づいて学習したLLMのオープンウェイトコレクションであるDicta-LM 3.0を紹介する。
24BはMistral-Small-3.1ベースモデル、12BはNVIDIA Nemotron Nano V2モデル、1.7BはQwen3-1.7Bベースモデルである。
それぞれが65kトークンのネイティブコンテキストを持ち、ベースモデルとツールコールをサポートするチャットモデルです。
我々のモデルを厳格に評価するために、ヘブライ語チャット-LLMの評価のための新しいベンチマークスイートを導入し、翻訳、要約、ウィノグラード、イスラエル・トリビア、ダイアクリット(ニクロード)を含む様々なタスクをカバーした。
我々の研究は、低リソース言語におけるLLMの訓練の複雑さに対処するだけでなく、他のLLMを様々な非英語言語に適用するために活用できるフレームワークを提案し、多言語NLPの幅広い分野に寄与する。
関連論文リスト
- LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Localizing AI: Evaluating Open-Weight Language Models for Languages of Baltic States [1.1470070927586016]
ローカルにデプロイ可能なオープンウェイトLLMがより少ない言語をサポートする範囲を評価する。
Llama3, Gemma2, Phi, NeMoの多言語オープンウェイトモデルのサイズと精度について検討した。
これらのモデルは、最先端の翻訳性能に近づきつつも、少なくとも20語に1回は誤りのある語彙幻覚を起こす傾向にある。
論文 参考訳(メタデータ) (2025-01-07T17:24:17Z) - Generative Model for Less-Resourced Language with 1 billion parameters [0.0]
GaMS 1B - 10億のパラメータを持つスロベニアの生成モデル。
我々はスロベニア語、クロアチア語、英語に適応した新しいトークンライザを開発した。
我々は,Slovene ベンチマークスイートと生成文単純化タスク SENTA から,いくつかの分類データセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-10-09T13:59:34Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。