論文の概要: ManufactuBERT: Efficient Continual Pretraining for Manufacturing
- arxiv url: http://arxiv.org/abs/2511.05135v1
- Date: Fri, 07 Nov 2025 10:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.735991
- Title: ManufactuBERT: Efficient Continual Pretraining for Manufacturing
- Title(参考訳): ManufactuBERT: 製造のための効率的な継続的プレトレーニング
- Authors: Robin Armingaud, Romaric Besançon,
- Abstract要約: ManufactuBERTは、製造ドメイン用にキュレートされた大規模コーパス上で継続的に事前訓練されたモデルである。
ManufactuBERTは、製造関連NLPタスクに新たな最先端技術を確立し、強力な専門的ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 1.8628821924525962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large general-purpose Transformer-based encoders excel at general language understanding, their performance diminishes in specialized domains like manufacturing due to a lack of exposure to domain-specific terminology and semantics. In this paper, we address this gap by introducing ManufactuBERT, a RoBERTa model continually pretrained on a large-scale corpus curated for the manufacturing domain. We present a comprehensive data processing pipeline to create this corpus from web data, involving an initial domain-specific filtering step followed by a multi-stage deduplication process that removes redundancies. Our experiments show that ManufactuBERT establishes a new state-of-the-art on a range of manufacturing-related NLP tasks, outperforming strong specialized baselines. More importantly, we demonstrate that training on our carefully deduplicated corpus significantly accelerates convergence, leading to a 33\% reduction in training time and computational cost compared to training on the non-deduplicated dataset. The proposed pipeline offers a reproducible example for developing high-performing encoders in other specialized domains. We will release our model and curated corpus at https://huggingface.co/cea-list-ia.
- Abstract(参考訳): 汎用トランスフォーマーベースのエンコーダは、汎用言語理解において優れているが、それらの性能は、ドメイン固有の用語や意味論への露出の欠如により、製造のような特殊なドメインでは低下する。
本稿では,RoBERTaモデルであるManufactuBERTを導入することにより,このギャップに対処する。
本稿では,このコーパスをWebデータから作成するための包括的データ処理パイプラインを提案する。
実験の結果,ManufactuBERT は製造関連 NLP タスクに新たな最先端技術を確立し,高い専門基準を達成していることがわかった。
より重要なのは、慎重に分離したコーパスでのトレーニングが収束を著しく加速し、非重複データセットでのトレーニングと比較してトレーニング時間と計算コストが33倍に削減されることである。
提案するパイプラインは、他の特殊なドメインで高性能エンコーダを開発するための再現可能な例を提供する。
当社のモデルとコーパスはhttps://huggingface.co/cea-list-ia.comで公開します。
関連論文リスト
- Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。
9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。
我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文 参考訳(メタデータ) (2025-10-07T22:30:59Z) - Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline [34.518474035662905]
LLM(Large Language Models)の一般的な能力は、いくつかの機関によって商業秘密として扱われる広範な事前訓練データセットに大きく依存している。
我々は、その有効性と可能性を検証するために、普遍的に適用可能なデータ処理パイプラインの詳細をオープンソース化する。
BaichuanSEEDはトレーニングを通じて一貫性と予測可能性を示し、包括的なベンチマークで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T14:08:23Z) - Self-Specialization: Uncovering Latent Expertise within Large Language Models [39.04128008742973]
近年の研究では、大規模言語モデルが一般的な指示に従うように整列された自己アライメントの有効性が実証されている。
我々はエキスパートドメイン専門化のための自己調整に焦点を当てる。
我々の自己特殊化モデルは、ベースモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T21:53:46Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - The Effects of In-domain Corpus Size on pre-training BERT [0.0]
バイオメディカルコーパスの大きさの異なる変換器(BERT)による双方向表現の事前訓練を行った。
その結果、比較的少数のドメイン内データ(4GB)をトレーニング段階の制限で事前トレーニングすることで、下流ドメイン固有のNLPタスクのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-12-15T15:49:27Z) - Deep Learning based pipeline for anomaly detection and quality
enhancement in industrial binder jetting processes [68.8204255655161]
異常検出は、通常の値空間とは異なる異常状態、インスタンス、あるいはデータポイントを検出する方法を記述する。
本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。
論文 参考訳(メタデータ) (2022-09-21T08:14:34Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。