論文の概要: A Causal Language Modeling Detour Improves Encoder Continued Pretraining
- arxiv url: http://arxiv.org/abs/2605.12438v1
- Date: Tue, 12 May 2026 17:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.054765
- Title: A Causal Language Modeling Detour Improves Encoder Continued Pretraining
- Title(参考訳): Causal Language Modeling Detour が Encoder の事前トレーニングを改善
- Authors: Rian Touchent, Eric de la Clergerie,
- Abstract要約: 因果言語モデリング(CLM)に一時的に切り替えると、短い減衰で下流の性能が向上することを示す。
現代英語のバイオメディカルテキストでは、このCLMは同一のデータで優れ、8つのフランス語と11のバイオメディカルタスクで計算される。
- 参考スコア(独自算出の注目度): 0.9821874476902969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When adapting an encoder to a new domain, the standard approach is to continue training with Masked Language Modeling (MLM). We show that temporarily switching to Causal Language Modeling (CLM) followed by a short MLM decay improves downstream performance. On biomedical texts with ModernBERT, this CLM detour outperforms MLM baselines trained on identical data and compute across 8 French and 11 English biomedical tasks, by +1.2-2.8pp and +0.3-0.8pp respectively, depending on model size. We investigate the reasons for these gains. We find that CLM's dense supervision impacts low transformer layers (0-7) far more than MLM does. Freezing low layers during CLM eliminates the downstream benefit; freezing mid layers preserves it. The representational changes persist through the MLM decay phase, even when it matches the CLM phase in length, and they scale with model capacity. We release ModernCamemBERT-bio and ModernBERT-bio as state-of-the-art biomedical encoders in Base and Large sizes.
- Abstract(参考訳): エンコーダを新しいドメインに適合させる場合、標準的なアプローチはMasked Language Modeling (MLM)でトレーニングを続けることである。
因果言語モデリング(CLM)に一時的に切り替えた後,短時間のMLM崩壊により下流性能が向上することを示す。
ModernBERTを用いたバイオメディカルテキストでは、このCLMデトラールは、同一のデータに基づいて訓練されたMLMベースラインよりも優れており、モデルサイズに応じて、+1.2-2.8ppと+0.3-0.8ppの8つのフランス語と11の英語のバイオメディカルタスクで計算される。
これらの利益の理由を調査する。
CLMの高密度監督がMLMよりも低い変圧器層(0-7)に影響を及ぼすことがわかった。
CLM中の低層凍結は下流の利点を排除し、中層凍結はそれを保存する。
表現的変化は、CLM位相と長さが一致しても、MLM崩壊相を通して持続し、モデル容量とスケールする。
我々は,現代CamemBERT-bioとModernBERT-bioを,ベースおよび大型の最先端のバイオメディカルエンコーダとしてリリースする。
関連論文リスト
- DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders [73.18745837755758]
拡散言語モデルのための最初のSAEベースの解釈可能性フレームワークであるDLM-Scopeを提案する。
訓練されたTop-K SAEが忠実に解釈可能な特徴を抽出できることを示す。
また、DLM関連タスクやアルゴリズムにSAEを適用する大きな可能性を示す。
論文 参考訳(メタデータ) (2026-02-05T16:41:25Z) - Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。
2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。
高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-01T17:45:48Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - AntLM: Bridging Causal and Masked Language Models [17.674125980976665]
Causal Language Modeling (CLM) Masked Language Modeling (MLM) はトランスフォーマーネットワークに基づく2つの主流パラダイムである。
本稿では,CLMとtextを統合した新しい言語モデリングパラダイムである$bfAntLM$を提案する。
論文 参考訳(メタデータ) (2024-12-04T12:34:15Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling [0.0]
最近のデコーダのみの大規模言語モデル(LLM)は、より小さなステートベースのエンコーダと同等に動作する。
因果マスクを階層的に除去することで,IEタスク上でのオープンLLMのSL性能を向上させる手法について検討する。
その結果,層依存性CM除去によるオープンLCMは,強いエンコーダや命令調整LDMよりも優れていた。
論文 参考訳(メタデータ) (2024-01-25T22:50:48Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。