論文の概要: Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language
- arxiv url: http://arxiv.org/abs/2504.19856v2
- Date: Wed, 30 Apr 2025 07:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.482373
- Title: Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language
- Title(参考訳): ドイツ語におけるプロセス産業のための効率的なドメイン適応型継続的事前学習
- Authors: Anastasia Zhukova, Christian E. Matt, Terry Ruas, Bela Gipp,
- Abstract要約: ドメイン適応型連続事前訓練(ドメイン適応型連続事前訓練、DAPT)は、言語マスキング(英語版)などの事前訓練タスクにおいて、言語モデル(LM)をさらに訓練する最先端の技術である。
In-context Learning (ICL) と k-nearest neighbors (kNN) を利用して、ドメイン関連およびドメイン内テキストによるターゲットデータの拡張を行う。
以上の結果から,従来のDAPTよりも平均赤外域の3.5ポイント向上し,計算コストの約4倍の削減が期待できることがわかった。
- 参考スコア(独自算出の注目度): 5.886032029544411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-adaptive continual pretraining (DAPT) is a state-of-the-art technique that further trains a language model (LM) on its pretraining task, e.g., language masking. Although popular, it requires a significant corpus of domain-related data, which is difficult to obtain for specific domains in languages other than English, such as the process industry in the German language. This paper introduces an efficient approach called ICL-augmented pretraining or ICL-APT that leverages in-context learning (ICL) and k-nearest neighbors (kNN) to augment target data with domain-related and in-domain texts, significantly reducing GPU time while maintaining strong model performance. Our results show that this approach performs better than traditional DAPT by 3.5 points of the average IR metrics (e.g., mAP, MRR, and nDCG) and requires almost 4 times less computing time, providing a cost-effective solution for industries with limited computational capacity. The findings highlight the broader applicability of this framework to other low-resource industries, making NLP-based solutions more accessible and feasible in production environments.
- Abstract(参考訳): Domain-Adaptive Continual Pretraining (DAPT)は、言語モデル(LM)を事前訓練タスク(例えば、言語マスキング)でトレーニングする最先端の技術である。
人気はあるものの、ドメイン関連データのかなりのコーパスが必要であり、ドイツ語のプロセス産業など英語以外の言語で特定のドメインを入手することは困難である。
In-context Learning (ICL) と k-nearest neighbors (kNN) を利用して、ドメイン関連のテキストとドメイン内のテキストでターゲットデータを拡張し、強力なモデル性能を維持しながらGPU時間を大幅に短縮する、ICL-augmented pretraining (ICL-APT) と呼ばれる効率的なアプローチを提案する。
提案手法は,平均赤外計測値(mAP,MRR,nDCG)の3.5ポイントで従来のDAPTよりも優れた性能を示し,計算能力に制限のある産業において,ほぼ4倍の計算時間を要する。
この調査結果は、このフレームワークが他の低リソース産業にも適用可能であることを強調し、NLPベースのソリューションが本番環境でよりアクセスしやすく、実現可能にしている。
関連論文リスト
- Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval [0.0]
この研究は、軽量なバイリンガル大言語モデル(LLM)を作成するために、言語削減技術を用いている。
ドメイン適応に対する我々のアプローチは、イランの領域内コーパスがアラビア語でのみ存在するイスラム領域で直面する固有の課題に対処する。
その結果、ドメイン適応と二言語的イスラム神経検索モデルの多段階学習法を組み合わせることで、下流検索タスクにおける単言語モデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2025-01-17T13:17:42Z) - Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Clinical Prompt Learning with Frozen Language Models [4.077071350659386]
大規模だが凍結した事前学習言語モデル (PLMs) は、より小型で微調整されたモデルよりも高速に学習できる。
臨床的に有意な意思決定課題における即時学習の実現可能性について検討した。
結果は、学習の速さと部分的に一致しており、学習の速さは従来の微調整と一致したり改善したりすることができる。
論文 参考訳(メタデータ) (2022-05-11T14:25:13Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - An Empirical Investigation Towards Efficient Multi-Domain Language Model
Pre-training [15.440627147018711]
我々は破滅的忘れ(CF)を緩和するための既知の方法に関する実証的研究を行っている。
弾性重み統合は7つの一般的なタスクに対して0.33%の低下しか得られない,最高の総合スコアを提供する。
論文 参考訳(メタデータ) (2020-10-01T09:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。