論文の概要: A Mathematical Exploration of Why Language Models Help Solve Downstream
Tasks
- arxiv url: http://arxiv.org/abs/2010.03648v2
- Date: Wed, 14 Apr 2021 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 21:45:24.592302
- Title: A Mathematical Exploration of Why Language Models Help Solve Downstream
Tasks
- Title(参考訳): 言語モデルが下流課題の解決に役立つ理由の数学的探索
- Authors: Nikunj Saunshi, Sadhika Malladi, Sanjeev Arora
- Abstract要約: 単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、多くの下流タスクの解決に成功している。
本稿では,テキスト分類の下流課題に対する,この現象の数学的研究を開始する。
- 参考スコア(独自算出の注目度): 35.046596668631615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive language models, pretrained using large text corpora to do
well on next word prediction, have been successful at solving many downstream
tasks, even with zero-shot usage. However, there is little theoretical
understanding of this success. This paper initiates a mathematical study of
this phenomenon for the downstream task of text classification by considering
the following questions: (1) What is the intuitive connection between the
pretraining task of next word prediction and text classification? (2) How can
we mathematically formalize this connection and quantify the benefit of
language modeling? For (1), we hypothesize, and verify empirically, that
classification tasks of interest can be reformulated as sentence completion
tasks, thus making language modeling a meaningful pretraining task. With a
mathematical formalization of this hypothesis, we make progress towards (2) and
show that language models that are $\epsilon$-optimal in cross-entropy
(log-perplexity) learn features that can linearly solve such classification
tasks with $\mathcal{O}(\sqrt{\epsilon})$ error, thus demonstrating that doing
well on language modeling can be beneficial for downstream tasks. We
experimentally verify various assumptions and theoretical findings, and also
use insights from the analysis to design a new objective function that performs
well on some classification tasks.
- Abstract(参考訳): 単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、ゼロショットでも多くの下流タスクを解決することに成功した。
しかし、この成功の理論的理解はほとんどない。
本稿では,次の単語予測の事前学習課題とテキスト分類との直感的な関連性について考察し,テキスト分類の下流課題に対するこの現象の数学的研究を開始する。
(2) この関係を数学的に定式化し、言語モデリングの利点を定量化する方法。
1) 興味のある分類タスクが文完成タスクとして再編成可能であることを仮定し,実証的に検証することにより,言語モデリングが有意義な事前学習タスクとなる。
この仮説の数学的形式化により、 (2) に向かって進み、クロスエントロピー (log-perplexity) において $\epsilon$-optimal である言語モデルが$\mathcal{o}(\sqrt{\epsilon})$エラーで線形に解くような特徴を学習できることを示し、言語モデリングをうまく行うことが下流タスクに有益であることを示す。
我々は,様々な仮定と理論的知見を実験的に検証し,分析から得られた知見を用いて,いくつかの分類タスクでうまく機能する新しい目的関数を設計する。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。
本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文 参考訳(メタデータ) (2021-01-09T12:15:08Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。