論文の概要: Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain
- arxiv url: http://arxiv.org/abs/2601.16018v1
- Date: Thu, 22 Jan 2026 14:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.627888
- Title: Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain
- Title(参考訳): Mecellem Models: トルコのモデルをスクラッチから訓練し、法律ドメインのために継続的に事前訓練する
- Authors: Özgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş,
- Abstract要約: 本稿では,トルコの法律ドメインのための専門言語モデルを開発するためのフレームワークであるMecellemモデルを提案する。
Scratchから事前訓練されたエンコーダモデル:ModernBERTベースの双方向エンコーダをトルコ支配の112億トークンのコーパスで事前訓練し、(2)継続事前トレーニング(CPT)によるデコーダモデル:Qwen3-1.7BとQwen3-4Bをトルコの法域に適応させた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.
- Abstract(参考訳): 本稿では,トルコの法律ドメインのための専門言語モデルを開発するためのフレームワークであるMecellemについて,ドメイン適応戦略を用いて述べる。
1)Scratchから事前訓練されたエンコーダモデル:ModernBERTベースの双方向エンコーダをトルコ支配の112億トークンのコーパスで事前訓練する。
我々は,学習中の下流検索性能を評価するチェックポイント選択戦略を実装し,学習前損失が最小限に達する前に,最適チェックポイントが最適な検索スコアを得ることを示した。
我々のエンコーダモデルはトルコの検索リーダーボード上で上位3位に達し、より小さなモデル(155Mパラメータ)がより大きな参照モデル(307M-567Mパラメータ)に匹敵する性能を達成する。
提案手法は,最先端モデル (100.00%, BAAI/bge-m3:99.54%, newmindai/bge-m3-stsb:94.38%) と比較して92.36%の生産効率を実現し, 計算資源の不足にもかかわらず総合的に第4位となった。
SOTAモデルはマルチステージで計算集約的なトレーニングパイプラインに依存しており、単段階の事前学習に続き、効率的なポストトレーニングアプローチをコスト効率のよい代替手段として、(2)継続事前学習(CPT)によるデコーダモデル(Qwen3-1.7BとQwen3-4B)を、制御カリキュラム学習を通じてトルコの法域に適応させる。
サンプル比が最適である4相CPTは、一般の言語知識から専門の法用語と長文推論への段階的な移行を可能にする。
このアプローチは、トルコの法文に36.2%の難易度を減少させ、ドメイン適応が向上することを示す。
関連論文リスト
- IMU-1: Sample-Efficient Pre-training of Small Language Models [0.0]
IMU-1は、72Bトークンで訓練された430Mパラメータ言語モデルであり、56倍のデータで訓練されたモデルのベンチマーク性能にアプローチする。
本稿では、最近のアーキテクチャ介入(QK-norm attention, per-head gating, value residuals, LayerNorm scalings)と最適化の進歩を組み合わせた検証済みのトレーニングレシピについて述べる。
論文 参考訳(メタデータ) (2026-01-25T21:24:15Z) - SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - Efficient Hate Speech Detection: A Three-Layer LoRA-Tuned BERTweet Framework [0.0]
本稿では,計算効率のよいヘイトスピーチ検出システムを開発する上での課題について述べる。
ルールベースの事前フィルタリングとパラメータ効率の高いLoRA調整BERTweetモデルを組み合わせた新しい3層フレームワークを提案する。
我々の手法はSafePhiのような最先端の大規模言語モデルの性能の94%を達成している。
論文 参考訳(メタデータ) (2025-11-08T15:47:18Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。