Fugu-MT 論文翻訳(概要): Pre-Training to Learn in Context

論文の概要: Pre-Training to Learn in Context

arxiv url: http://arxiv.org/abs/2305.09137v1
Date: Tue, 16 May 2023 03:38:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 16:34:36.257255
Title: Pre-Training to Learn in Context
Title（参考訳）: 文脈で学ぶための事前学習
Authors: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
Abstract要約: 言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
参考スコア（独自算出の注目度）: 138.0745138788142
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning, where pre-trained language models learn to perform tasks from task examples and instructions in their contexts, has attracted much attention in the NLP community. However, the ability of in-context learning is not fully exploited because language models are not explicitly trained to learn in context. To this end, we propose PICL (Pre-training for In-Context Learning), a framework to enhance the language models' in-context learning ability by pre-training the model on a large collection of "intrinsic tasks" in the general plain-text corpus using the simple language modeling objective. PICL encourages the model to infer and perform tasks by conditioning on the contexts while maintaining task generalization of pre-trained models. We evaluate the in-context learning performance of the model trained with PICL on seven widely-used text classification datasets and the Super-NaturalInstrctions benchmark, which contains 100+ NLP tasks formulated to text generation. Our experiments show that PICL is more effective and task-generalizable than a range of baselines, outperforming larger language models with nearly 4x parameters. The code is publicly available at https://github.com/thu-coai/PICL.
Abstract（参考訳）: 事前学習された言語モデルがタスク例からタスクの実行を学習するインコンテキスト学習は、NLPコミュニティで注目を集めている。しかし、言語モデルがコンテキストで学習するように明示的に訓練されていないため、コンテキスト内学習の能力は完全には活用されない。そこで本研究では,単純な言語モデリング目標を用いて,一般的な平文コーパスにおいて,大量の"イントラシックタスク"を事前学習することにより,言語モデルのインコンテキスト学習能力を向上させるためのフレームワークであるpicl(pre-training for in-context learning)を提案する。 PICLは、事前訓練されたモデルのタスク一般化を維持しながら、コンテキストを条件付けしてタスクを推論し実行することを奨励する。 PICLを用いて訓練された7つのテキスト分類データセットと、テキスト生成に形式化された100以上のNLPタスクを含むSuper-Natural Instrctionsベンチマークを用いて、文脈内学習性能を評価する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。コードはhttps://github.com/thu-coai/PICLで公開されている。

関連論文リスト

CL-bench: A Benchmark for Context Learning [152.2879060355882]
この能力は人間が自然に持っているが、ほとんど見過ごされている重要な能力である。我々は,500のコンテキスト,1,899のタスク,31,607の検証からなる実世界のベンチマークであるCL-benchを紹介する。 CL-benchは、この基本的な能力でLMを構築するためのステップであり、よりインテリジェントで、現実のシナリオでのデプロイメントを前進させる。
論文参考訳（メタデータ） (2026-02-03T14:37:47Z)
Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting [15.69952375347308]
言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
論文参考訳（メタデータ） (2024-05-28T21:38:20Z)
Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。生コーパスを可読テキストに変換する簡単な方法を提案する。
論文参考訳（メタデータ） (2023-09-18T07:17:52Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。 GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文参考訳（メタデータ） (2023-06-14T06:00:18Z)
EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文参考訳（メタデータ） (2023-05-24T01:40:57Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Annotated Dataset Creation through General Purpose Language Models for non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文参考訳（メタデータ） (2022-08-30T18:42:55Z)
How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文参考訳（メタデータ） (2020-05-10T09:28:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。