論文の概要: BERTs are Generative In-Context Learners
- arxiv url: http://arxiv.org/abs/2406.04823v1
- Date: Fri, 7 Jun 2024 10:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:30:43.520419
- Title: BERTs are Generative In-Context Learners
- Title(参考訳): BERTは、生成的インコンテキスト学習者である
- Authors: David Samuel,
- Abstract要約: 本稿では,DeBERTaを付加訓練なしで生成モデルとして動作させることができる,恥ずかしいほど単純な推論手法を提案する。
本研究は,テキスト内学習のパラダイムを現代に導入したGPT-3を,DeBERTaが適合し,さらに超えることを示すものである。
- 参考スコア(独自算出の注目度): 5.121744234312891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the in-context learning capabilities of masked language models, challenging the common view that this ability does not 'emerge' in them. We present an embarrassingly simple inference technique that enables DeBERTa to operate as a generative model without any additional training. Our findings demonstrate that DeBERTa can match and even surpass GPT-3, its contemporary that famously introduced the paradigm of in-context learning. The comparative analysis reveals that the masked and causal language models behave very differently, as they clearly outperform each other on different categories of tasks. This suggests that there is great potential for a hybrid training approach that takes advantage of the strengths of both training objectives.
- Abstract(参考訳): 本稿では、マスク付き言語モデルの文脈内学習能力について考察し、この能力が「融合」しないという共通認識に挑戦する。
本稿では,DeBERTaを付加訓練なしで生成モデルとして動作させることができる,恥ずかしいほど単純な推論手法を提案する。
本研究は,テキスト内学習のパラダイムを現代に導入したGPT-3を,DeBERTaが適合し,さらに超えることを示すものである。
比較分析により、マスクされた言語モデルと因果関係の言語モデルは、異なるタスクのカテゴリにおいて明らかに互いに優れており、非常に異なる振る舞いをすることが明らかとなった。
これは、両方のトレーニング目標の強みを生かしたハイブリッドトレーニングアプローチには、大きな可能性があることを示唆している。
関連論文リスト
- Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Are Emergent Abilities in Large Language Models just In-Context Learning? [46.561464069450444]
創発的能力を説明する新しい理論を提示する。
以上の結果から,創発能力は真に創発的ではなく,文脈内学習,モデル記憶,言語知識の組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T20:54:11Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework
of Vision-and-Language BERTs [57.74359320513427]
ビジョンと言語BERTを事前訓練して、これらの2つの重要なAI領域の交差点での課題に取り組む方法が提案されている。
これら2つのカテゴリの違いについて検討し、単一の理論的枠組みの下でそれらをどのように統合できるかを示す。
5つのV&L BERT間の経験的差異を明らかにするための制御実験を行った。
論文 参考訳(メタデータ) (2020-11-30T18:55:24Z) - On the comparability of Pre-trained Language Models [0.0]
教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
論文 参考訳(メタデータ) (2020-01-03T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。