論文の概要: Language Model Decomposition: Quantifying the Dependency and Correlation
of Language Models
- arxiv url: http://arxiv.org/abs/2210.10289v1
- Date: Wed, 19 Oct 2022 04:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:32:54.652555
- Title: Language Model Decomposition: Quantifying the Dependency and Correlation
of Language Models
- Title(参考訳): 言語モデル分解:言語モデルの依存性と相関の定量化
- Authors: Hao Zhang
- Abstract要約: 事前訓練された言語モデル(LM)は、過去数年間に様々なNLPタスクに大幅な改善をもたらした。
本稿では,事前学習したLM間の線形依存性について検討する。
BERT と 11 のBERT 様 LM は 91% の線形依存性を持つことがわかった。
- 参考スコア(独自算出の注目度): 6.096612743012841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LMs), such as BERT (Devlin et al., 2018) and its
variants, have led to significant improvements on various NLP tasks in past
years. However, a theoretical framework for studying their relationships is
still missing. In this paper, we fill this gap by investigating the linear
dependency between pre-trained LMs. The linear dependency of LMs is defined
analogously to the linear dependency of vectors. We propose Language Model
Decomposition (LMD) to represent a LM using a linear combination of other LMs
as basis, and derive the closed-form solution. A goodness-of-fit metric for LMD
similar to the coefficient of determination is defined and used to measure the
linear dependency of a set of LMs. In experiments, we find that BERT and eleven
(11) BERT-like LMs are 91% linearly dependent. This observation suggests that
current state-of-the-art (SOTA) LMs are highly "correlated". To further advance
SOTA we need more diverse and novel LMs that are less dependent on existing
LMs.
- Abstract(参考訳): BERT (Devlin et al., 2018) などの事前訓練言語モデル(LM)とその変種は、過去数年間に様々なNLPタスクに大きな改善をもたらした。
しかし、それらの関係を研究するための理論的枠組みはまだ欠けている。
本稿では,事前学習したLM間の線形依存性を調べることで,このギャップを埋める。
LMの線型依存は、ベクトルの線型依存と類似して定義される。
本稿では,他のlmsの線形結合を基礎としてlmを表す言語モデル分解(lmd)を提案し,閉形式解を導出する。
判定係数に類似したlmdの適合度メトリックを定義し、一連のlmdの線形依存性を測定するために使用する。
実験では, BERT と 11 の BERT 様の LM が 91% の線形依存性を持つことがわかった。
この観察から,現在のSOTA (State-of-the-art) LMは極めて「相関性」が高いことが示唆された。
SOTAをさらに前進させるためには、既存のLMに依存しないより多様な新しいLMが必要です。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - DSPy Assertions: Computational Constraints for Self-Refining Language
Model Pipelines [41.779902953557425]
組込み言語モデル(LM)は構成可能なモジュールと呼ばれ、新しいプログラミング方法の原動力となっている。
本稿では,LM が満たすべき計算制約を表現する構造である LM Assertions を紹介する。
我々は、DSPyがLM Assertionsでプログラムをより信頼性が高く正確なシステムにコンパイルできる新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:13:26Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文 参考訳(メタデータ) (2022-08-05T17:46:38Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。