Fugu-MT 論文翻訳(概要): Language Model Decomposition: Quantifying the Dependency and Correlation of Language Models

論文の概要: Language Model Decomposition: Quantifying the Dependency and Correlation of Language Models

arxiv url: http://arxiv.org/abs/2210.10289v2
Date: Fri, 21 Oct 2022 03:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 10:58:03.841810
Title: Language Model Decomposition: Quantifying the Dependency and Correlation of Language Models
Title（参考訳）: 言語モデル分解:言語モデルの依存性と相関の定量化
Authors: Hao Zhang
Abstract要約: 事前訓練された言語モデル(LM)は、過去数年間に様々なNLPタスクに大幅な改善をもたらした。本稿では,事前学習したLM間の線形依存性について検討する。 BERT と 11 のBERT 様 LM は 91% の線形依存性を持つことがわかった。
参考スコア（独自算出の注目度）: 6.096612743012841
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (LMs), such as BERT (Devlin et al., 2018) and its variants, have led to significant improvements on various NLP tasks in past years. However, a theoretical framework for studying their relationships is still missing. In this paper, we fill this gap by investigating the linear dependency between pre-trained LMs. The linear dependency of LMs is defined analogously to the linear dependency of vectors. We propose Language Model Decomposition (LMD) to represent a LM using a linear combination of other LMs as basis, and derive the closed-form solution. A goodness-of-fit metric for LMD similar to the coefficient of determination is defined and used to measure the linear dependency of a set of LMs. In experiments, we find that BERT and eleven (11) BERT-like LMs are 91% linearly dependent. This observation suggests that current state-of-the-art (SOTA) LMs are highly "correlated". To further advance SOTA we need more diverse and novel LMs that are less dependent on existing LMs.
Abstract（参考訳）: BERT (Devlin et al., 2018) などの事前訓練言語モデル(LM)とその変種は、過去数年間に様々なNLPタスクに大きな改善をもたらした。しかし、それらの関係を研究するための理論的枠組みはまだ欠けている。本稿では,事前学習したLM間の線形依存性を調べることで,このギャップを埋める。 LMの線型依存は、ベクトルの線型依存と類似して定義される。本稿では,他のlmsの線形結合を基礎としてlmを表す言語モデル分解(lmd)を提案し,閉形式解を導出する。判定係数に類似したlmdの適合度メトリックを定義し、一連のlmdの線形依存性を測定するために使用する。実験では, BERT と 11 の BERT 様の LM が 91% の線形依存性を持つことがわかった。この観察から,現在のSOTA (State-of-the-art) LMは極めて「相関性」が高いことが示唆された。 SOTAをさらに前進させるためには、既存のLMに依存しないより多様な新しいLMが必要です。

関連論文リスト

Order-Level Attention Similarity Across Language Models: A Latent Commonality [21.824171885933676]
言語モデル(LM)にまたがるコンテキストアグリゲーションパターンは共通点を共有しているだろうか? 注意ロールアウトの順序分解から導かれる命令レベル注意(OLA)を導入する。トレーニング不要なクロスLMアダプタ転送方式であるTransferable OLA Adapter (TOA)を提案する。
論文参考訳（メタデータ） (2025-11-07T08:18:58Z)
Generating Diverse Training Samples for Relation Extraction with Large Language Models [30.196619805354622]
関係抽出(RE)のための大規模言語モデル(LLM)で生成されたトレーニングサンプルの多様性を効果的に改善する方法について検討する。一般的に使用されるREデータセットの実験では、両方の試みが生成されたトレーニングデータの品質を向上させることが示されている。
論文参考訳（メタデータ） (2025-05-29T05:21:54Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。 2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文参考訳（メタデータ） (2024-08-23T00:59:38Z)
Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文参考訳（メタデータ） (2024-08-16T06:37:59Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文参考訳（メタデータ） (2024-04-05T14:13:55Z)
DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines [41.779902953557425]
組込み言語モデル(LM)は構成可能なモジュールと呼ばれ、新しいプログラミング方法の原動力となっている。本稿では,LM が満たすべき計算制約を表現する構造である LM Assertions を紹介する。我々は、DSPyがLM Assertionsでプログラムをより信頼性が高く正確なシステムにコンパイルできる新しい戦略を提案する。
論文参考訳（メタデータ） (2023-12-20T19:13:26Z)
BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings [4.545354973721937]
後方依存性強化大言語モデル(BeLLM)を提案する。特定の注意層を一方向から双方向に変換することで文の埋め込みを学習する。自動回帰 LLM は文埋め込みの後方依存性の恩恵を受ける。
論文参考訳（メタデータ） (2023-11-09T11:53:52Z)
Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。 LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文参考訳（メタデータ） (2023-06-01T07:00:07Z)
Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。 BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文参考訳（メタデータ） (2022-08-05T17:46:38Z)
Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文参考訳（メタデータ） (2022-04-15T17:19:41Z)
Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。正規化項を追加し、TMの出力分布をLMの下で予測可能とする。 2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文参考訳（メタデータ） (2020-04-30T16:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。