論文の概要: The Inductive Bias of In-Context Learning: Rethinking Pretraining
Example Design
- arxiv url: http://arxiv.org/abs/2110.04541v1
- Date: Sat, 9 Oct 2021 11:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 23:42:53.632084
- Title: The Inductive Bias of In-Context Learning: Rethinking Pretraining
Example Design
- Title(参考訳): インコンテキスト学習の帰納的バイアス:事前学習事例設計の再考
- Authors: Yoav Levine, Noam Wies, Daniel Jannai, Dan Navon, Yedid Hoshen, Amnon
Shashua
- Abstract要約: 事前学習したNLMは、同じトレーニング例に現れるテキストセグメント間の依存関係を、異なるトレーニング例に現れるテキストセグメント間の依存性よりも強くモデル化できることを示す。
我々は「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、文表現の改善とオープンドメイン質問応答能力が得られることを示す。
- 参考スコア(独自算出の注目度): 34.900425311720795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining Neural Language Models (NLMs) over a large corpus involves
chunking the text into training examples, which are contiguous text segments of
sizes processable by the neural architecture. We highlight a bias introduced by
this common practice: we prove that the pretrained NLM can model much stronger
dependencies between text segments that appeared in the same training example,
than it can between text segments that appeared in different training examples.
This intuitive result has a twofold role. First, it formalizes the motivation
behind a broad line of recent successful NLM training heuristics, proposed for
the pretraining and fine-tuning stages, which do not necessarily appear related
at first glance. Second, our result clearly indicates further improvements to
be made in NLM pretraining for the benefit of Natural Language Understanding
tasks. As an example, we propose "kNN-Pretraining": we show that including
semantically related non-neighboring sentences in the same pretraining example
yields improved sentence representations and open domain question answering
abilities. This theoretically motivated degree of freedom for "pretraining
example design" indicates new training schemes for self-improving
representations.
- Abstract(参考訳): 大きなコーパス上の事前学習ニューラルネットワークモデル(nlms)は、ニューラルネットワークアーキテクチャによって処理可能なサイズの連続したテキストセグメントであるトレーニング例にテキストをチャンクする。
私たちは、事前訓練されたnlmが、同じトレーニング例に現れるテキストセグメント間の依存性を、異なるトレーニング例に現れるテキストセグメント間よりもはるかに強くモデル化できることを証明します。
この直感的な結果は2倍の役割を持つ。
第一に、最近成功したNLMトレーニングヒューリスティックの幅広いラインの背後にあるモチベーションを定式化し、事前訓練と微調整の段階について提案する。
第2に、自然言語理解タスクの恩恵を受けるため、NLM事前学習においてさらなる改善が期待できることを示す。
例として、「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、改善された文表現とオープンドメイン質問応答能力が得られることを示す。
この理論的に動機付けられた「事前学習例設計」の自由度は、自己改善表現のための新しい訓練スキームを示している。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - SDCUP: Schema Dependency-Enhanced Curriculum Pre-Training for Table
Semantic Parsing [19.779493883522072]
本稿では,テーブル事前学習のための学習表現に所望の帰納バイアスを課すために,2つの新しい事前学習目標を設計する。
本稿では,雑音の影響を緩和し,事前学習データから容易にハードな方法で効果的に学習する,スキーマ対応のカリキュラム学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-18T02:51:04Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。