論文の概要: Patent Language Model Pretraining with ModernBERT
- arxiv url: http://arxiv.org/abs/2509.14926v1
- Date: Thu, 18 Sep 2025 13:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.225839
- Title: Patent Language Model Pretraining with ModernBERT
- Title(参考訳): ModernBERTを用いた特許言語モデル
- Authors: Amirhossein Yousefiramandi, Ciaran Cooney,
- Abstract要約: われわれは、ModernBERTアーキテクチャと6000万以上の特許記録をキュレートしたコーパスを用いて、ドメイン固有の3つのマスク付き言語モデルを事前訓練する。
このアプローチでは,FlashAttention,回転埋め込み,GLUフィードフォワードレイヤなどのアーキテクチャ最適化を取り入れている。
われわれのモデルである ModernBERT-base-PT は、4つのデータセットのうち3つで汎用 ModernBERT ベースラインを一貫して上回り、ベースラインの PatentBERT と競合する性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models such as BERT have become foundational in NLP, yet their performance degrades in specialized domains like patents, which contain long, technical, and legally structured text. Prior approaches to patent NLP have primarily relied on fine-tuning general-purpose models or domain-adapted variants pretrained with limited data. In this work, we pretrain 3 domain-specific masked language models for patents, using the ModernBERT architecture and a curated corpus of over 60 million patent records. Our approach incorporates architectural optimizations, including FlashAttention, rotary embeddings, and GLU feed-forward layers. We evaluate our models on four downstream patent classification tasks. Our model, ModernBERT-base-PT, consistently outperforms the general-purpose ModernBERT baseline on three out of four datasets and achieves competitive performance with a baseline PatentBERT. Additional experiments with ModernBERT-base-VX and Mosaic-BERT-large demonstrate that scaling the model size and customizing the tokenizer further enhance performance on selected tasks. Notably, all ModernBERT variants retain substantially faster inference over - 3x that of PatentBERT - underscoring their suitability for time-sensitive applications. These results underscore the benefits of domain-specific pretraining and architectural improvements for patent-focused NLP tasks.
- Abstract(参考訳): BERTのようなトランスフォーマーベースの言語モデルは、NLPの基盤となっているが、そのパフォーマンスは、長い、技術的、法的に構造化されたテキストを含む特許のような特殊なドメインで低下している。
特許NLPに対する以前のアプローチは、主に限られたデータで事前訓練された微調整された汎用モデルやドメイン適応型に頼っていた。
本研究では、ModernBERTアーキテクチャと6000万以上の特許記録をキュレートしたコーパスを用いて、3つのドメイン固有マスキング言語モデルを事前訓練する。
このアプローチでは,FlashAttention,回転埋め込み,GLUフィードフォワードレイヤなどのアーキテクチャ最適化を取り入れている。
我々は、下流の4つの特許分類タスクでモデルを評価する。
われわれのモデルであるModernBERT-base-PTは、4つのデータセットのうち3つで汎用ModernBERTベースラインを一貫して上回り、ベースラインのPurtureBERTとの競合性能を達成する。
ModernBERT-base-VXとMosaic-BERT-largeによるさらなる実験は、モデルのサイズを拡大し、トークン化をカスタマイズすることで、選択したタスクのパフォーマンスをさらに向上させることを示した。
注目すべきは、ModernBERTのすべての派生型は、時間に敏感なアプリケーションに対する適合性を裏付ける、より高速な推論を維持していることである。
これらの結果は、ドメイン固有の事前トレーニングと、特許に焦点をあてたNLPタスクのアーキテクチャ改善の利点を浮き彫りにしている。
関連論文リスト
- NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance [17.306542392779445]
DeBERTaV3やModernBERTのようなトランスフォーマーエンコーダモデルは、効率と性能を改善することを目的としたアーキテクチャの進歩を導入している。
ModernBERTレポートの著者らは、いくつかのベンチマークでDeBERTaV3よりもパフォーマンスが向上したが、トレーニングデータの開示の欠如と比較の欠如により、これらのメリットがアーキテクチャの改善やトレーニングデータの相違によるものであるかどうかを判断することは困難である。
論文 参考訳(メタデータ) (2025-04-11T17:29:35Z) - NeoBERT: A Next-Generation BERT [9.256844523327192]
NeoBERTは、双方向モデルの能力を再定義する次世代エンコーダである。
すべてのコード、データ、チェックポイント、トレーニングスクリプトをリリースし、研究と実際の採用を加速します。
論文 参考訳(メタデータ) (2025-02-26T22:00:22Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient
Pre-trained Language Models [46.69439585453071]
アーキテクチャのハイパーパラメータを自動的に検索するために,NAS(One-shot Neural Architecture Search)を採用している。
具体的には,小型PLMの適応的かつ効率的な開発方法を提供するために,ワンショット学習の技術と検索空間を設計する。
提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
論文 参考訳(メタデータ) (2021-07-29T00:47:30Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。