Fugu-MT 論文翻訳(概要): A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks

論文の概要: A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks

arxiv url: http://arxiv.org/abs/2010.03648v2
Date: Wed, 14 Apr 2021 17:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 21:45:24.592302
Title: A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks
Title（参考訳）: 言語モデルが下流課題の解決に役立つ理由の数学的探索
Authors: Nikunj Saunshi, Sadhika Malladi, Sanjeev Arora
Abstract要約: 単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、多くの下流タスクの解決に成功している。本稿では,テキスト分類の下流課題に対する,この現象の数学的研究を開始する。
参考スコア（独自算出の注目度）: 35.046596668631615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive language models, pretrained using large text corpora to do well on next word prediction, have been successful at solving many downstream tasks, even with zero-shot usage. However, there is little theoretical understanding of this success. This paper initiates a mathematical study of this phenomenon for the downstream task of text classification by considering the following questions: (1) What is the intuitive connection between the pretraining task of next word prediction and text classification? (2) How can we mathematically formalize this connection and quantify the benefit of language modeling? For (1), we hypothesize, and verify empirically, that classification tasks of interest can be reformulated as sentence completion tasks, thus making language modeling a meaningful pretraining task. With a mathematical formalization of this hypothesis, we make progress towards (2) and show that language models that are $\epsilon$-optimal in cross-entropy (log-perplexity) learn features that can linearly solve such classification tasks with $\mathcal{O}(\sqrt{\epsilon})$ error, thus demonstrating that doing well on language modeling can be beneficial for downstream tasks. We experimentally verify various assumptions and theoretical findings, and also use insights from the analysis to design a new objective function that performs well on some classification tasks.
Abstract（参考訳）: 単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、ゼロショットでも多くの下流タスクを解決することに成功した。しかし、この成功の理論的理解はほとんどない。本稿では,次の単語予測の事前学習課題とテキスト分類との直感的な関連性について考察し,テキスト分類の下流課題に対するこの現象の数学的研究を開始する。 (2) この関係を数学的に定式化し、言語モデリングの利点を定量化する方法。 1) 興味のある分類タスクが文完成タスクとして再編成可能であることを仮定し,実証的に検証することにより,言語モデリングが有意義な事前学習タスクとなる。この仮説の数学的形式化により、 (2) に向かって進み、クロスエントロピー (log-perplexity) において $\epsilon$-optimal である言語モデルが$\mathcal{o}(\sqrt{\epsilon})$エラーで線形に解くような特徴を学習できることを示し、言語モデリングをうまく行うことが下流タスクに有益であることを示す。我々は,様々な仮定と理論的知見を実験的に検証し,分析から得られた知見を用いて,いくつかの分類タスクでうまく機能する新しい目的関数を設計する。

関連論文リスト

Solvable Dynamics of Self-Supervised Word Embeddings and the Emergence of Analogical Reasoning [3.519547280344187]
本稿では,2次単語埋め込みモデルという,可解なコントラスト付き自己教師付きアルゴリズムのクラスについて検討する。我々の解は、これらのモデルが1度に1つの線型部分空間を学習し、それぞれがモデル容量が飽和するまで、埋め込みの効果的なランクを増すことを示した。我々は、動的理論を用いて、モデルがアナログを完遂する能力をどのように、いつ取得するかを予測する。
論文参考訳（メタデータ） (2025-02-14T02:16:48Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文参考訳（メタデータ） (2024-09-17T12:54:34Z)
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文参考訳（メタデータ） (2023-07-31T22:58:41Z)
A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文参考訳（メタデータ） (2023-07-26T18:58:53Z)
Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文参考訳（メタデータ） (2023-06-21T11:48:07Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
UU-Tax at SemEval-2022 Task 3: Improving the generalizability of language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文参考訳（メタデータ） (2022-10-07T07:41:28Z)
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文参考訳（メタデータ） (2021-07-28T18:09:46Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文参考訳（メタデータ） (2021-01-09T12:15:08Z)
Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文参考訳（メタデータ） (2020-04-07T01:06:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。