論文の概要: Pretraining Language Models for Diachronic Linguistic Change Discovery
- arxiv url: http://arxiv.org/abs/2504.05523v2
- Date: Wed, 09 Apr 2025 13:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:51.223871
- Title: Pretraining Language Models for Diachronic Linguistic Change Discovery
- Title(参考訳): ダイアクロニック言語変化発見のための事前学習言語モデル
- Authors: Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner,
- Abstract要約: 本手法は,手作業による検査を容易にするため,コーパス上で有効なモデルを生成することができることを示す。
我々は,10万ワードスライス5件の時間分割データセットを得るために,新しい日付属性パイプラインを用いる。
事前訓練されたモデルは、微調整されたベースラインよりも訓練が早いこと、そして、私たちのコーパスの歴史的区分をより尊重していることが分かりました。
- 参考スコア(独自算出の注目度): 8.203894221271302
- License:
- Abstract: Large language models (LLMs) have shown potential as tools for scientific discovery. This has engendered growing interest in their use in humanistic disciplines, such as historical linguistics and literary studies. These fields often construct arguments on the basis of delineations like genre, or more inflexibly, time period. Although efforts have been made to restrict inference to specific domains via fine-tuning or model editing, we posit that the only true guarantee is domain-restricted pretraining -- typically, a data- and compute-expensive proposition. We show that efficient pretraining techniques can produce useful models over corpora too large for easy manual inspection but too small for "typical" LLM approaches. We employ a novel date-attribution pipeline in order to obtain a temporally-segmented dataset of five 10-million-word slices. We train two corresponding five-model batteries over these corpus segments, efficient pretraining and Llama3-8B parameter efficiently finetuned. We find that the pretrained models are faster to train than the finetuned baselines and that they better respect the historical divisions of our corpus. Emphasizing speed and precision over a-historical comprehensiveness enables a number of novel approaches to hypothesis discovery and testing in our target fields. Taking up diachronic linguistics as a testbed, we show that our method enables the detection of a diverse set of phenomena, including en masse lexical change, non-lexical (grammatical and morphological) change, and word sense introduction/obsolescence. We provide a ready-to-use pipeline that allows extension of our approach to other target fields with only minimal adaptation.
- Abstract(参考訳): 大型言語モデル(LLM)は科学的発見のツールとして可能性を示している。
このことは、歴史的言語学や文学研究など、人文学の分野での使用に対する関心を高めている。
これらの分野は、ジャンル、あるいはより柔軟に、時間といった記述に基づいて論証を構成することが多い。
微調整やモデル編集によって特定のドメインへの推論を制限する努力がなされていますが、真の保証はドメイン限定の事前トレーニングです。
提案手法は,手作業で手動検査を行うには小さすぎるが,LLMアプローチでは小さすぎるため,コーパス上で有用なモデルを生成することができることを示す。
我々は,10万ワードスライス5件の時間分割データセットを得るために,新しい日付属性パイプラインを用いる。
これらのコーパスセグメント上で2つの対応する5モデル電池を訓練し、効率の良いプレトレーニングを行い、Llama3-8Bパラメータを効率的に微調整した。
事前訓練されたモデルは、微調整されたベースラインよりも訓練が早いこと、そして、私たちのコーパスの歴史的区分をより尊重していることが分かりました。
歴史的包括性に対する速度と精度の強調は、我々の対象分野における仮説の発見と検証に新しいアプローチを可能にする。
ダイアクロニック言語学をテストベッドとして用い,語彙変化の大量化,非語彙変化(文法的・形態的)の変化,単語の出現・絶対化など,さまざまな現象の検出を可能にする。
我々は、最小限の適応しか持たない他のターゲットフィールドへのアプローチの拡張を可能にする準備の整ったパイプラインを提供する。
関連論文リスト
- Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。