論文の概要: Language Model Decomposition: Quantifying the Dependency and Correlation
of Language Models
- arxiv url: http://arxiv.org/abs/2210.10289v2
- Date: Fri, 21 Oct 2022 03:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 10:58:03.841810
- Title: Language Model Decomposition: Quantifying the Dependency and Correlation
of Language Models
- Title(参考訳): 言語モデル分解:言語モデルの依存性と相関の定量化
- Authors: Hao Zhang
- Abstract要約: 事前訓練された言語モデル(LM)は、過去数年間に様々なNLPタスクに大幅な改善をもたらした。
本稿では,事前学習したLM間の線形依存性について検討する。
BERT と 11 のBERT 様 LM は 91% の線形依存性を持つことがわかった。
- 参考スコア(独自算出の注目度): 6.096612743012841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LMs), such as BERT (Devlin et al., 2018) and its
variants, have led to significant improvements on various NLP tasks in past
years. However, a theoretical framework for studying their relationships is
still missing. In this paper, we fill this gap by investigating the linear
dependency between pre-trained LMs. The linear dependency of LMs is defined
analogously to the linear dependency of vectors. We propose Language Model
Decomposition (LMD) to represent a LM using a linear combination of other LMs
as basis, and derive the closed-form solution. A goodness-of-fit metric for LMD
similar to the coefficient of determination is defined and used to measure the
linear dependency of a set of LMs. In experiments, we find that BERT and eleven
(11) BERT-like LMs are 91% linearly dependent. This observation suggests that
current state-of-the-art (SOTA) LMs are highly "correlated". To further advance
SOTA we need more diverse and novel LMs that are less dependent on existing
LMs.
- Abstract(参考訳): BERT (Devlin et al., 2018) などの事前訓練言語モデル(LM)とその変種は、過去数年間に様々なNLPタスクに大きな改善をもたらした。
しかし、それらの関係を研究するための理論的枠組みはまだ欠けている。
本稿では,事前学習したLM間の線形依存性を調べることで,このギャップを埋める。
LMの線型依存は、ベクトルの線型依存と類似して定義される。
本稿では,他のlmsの線形結合を基礎としてlmを表す言語モデル分解(lmd)を提案し,閉形式解を導出する。
判定係数に類似したlmdの適合度メトリックを定義し、一連のlmdの線形依存性を測定するために使用する。
実験では, BERT と 11 の BERT 様の LM が 91% の線形依存性を持つことがわかった。
この観察から,現在のSOTA (State-of-the-art) LMは極めて「相関性」が高いことが示唆された。
SOTAをさらに前進させるためには、既存のLMに依存しないより多様な新しいLMが必要です。
関連論文リスト
- Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - DSPy Assertions: Computational Constraints for Self-Refining Language
Model Pipelines [41.779902953557425]
組込み言語モデル(LM)は構成可能なモジュールと呼ばれ、新しいプログラミング方法の原動力となっている。
本稿では,LM が満たすべき計算制約を表現する構造である LM Assertions を紹介する。
我々は、DSPyがLM Assertionsでプログラムをより信頼性が高く正確なシステムにコンパイルできる新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:13:26Z) - BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings [4.545354973721937]
後方依存性強化大言語モデル(BeLLM)を提案する。
特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。
自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。
論文 参考訳(メタデータ) (2023-11-09T11:53:52Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - LM-Switch: Lightweight Language Model Conditioning in Word Embedding
Space [45.645632406931945]
本稿では,ジェネレーティブ言語モデルコンディショニングのための理論的基礎と軽量でシンプルな手法であるLM-Switchを紹介する。
LM-Switchは多種多様なタスクをモデル化でき、最先端のベースラインと比較して同等あるいは優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:52:04Z) - Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文 参考訳(メタデータ) (2022-08-05T17:46:38Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。