論文の概要: BERTs are Generative In-Context Learners
- arxiv url: http://arxiv.org/abs/2406.04823v2
- Date: Thu, 31 Oct 2024 16:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:59:17.355791
- Title: BERTs are Generative In-Context Learners
- Title(参考訳): BERTは、生成的インコンテキスト学習者である
- Authors: David Samuel,
- Abstract要約: インコンテキスト学習は一般的にGPTのような因果言語モデルと関連付けられている。
マスク付き言語モデルでは、この機能が"エマージ"されることも示しています。
既存のマスク付きモデルであるDeBERTaを、追加のトレーニングやアーキテクチャの変更なしに生成タスクを実行可能にする。
- 参考スコア(独自算出の注目度): 5.121744234312891
- License:
- Abstract: While in-context learning is commonly associated with causal language models, such as GPT, we demonstrate that this capability also 'emerges' in masked language models. Through an embarrassingly simple inference technique, we enable an existing masked model, DeBERTa, to perform generative tasks without additional training or architectural changes. Our evaluation reveals that the masked and causal language models behave very differently, as they clearly outperform each other on different categories of tasks. These complementary strengths suggest that the field's focus on causal models for in-context learning may be limiting - both architectures can develop these capabilities, but with distinct advantages; pointing toward promising hybrid approaches that combine the strengths of both objectives.
- Abstract(参考訳): 文脈内学習は、GPTなどの因果言語モデルと一般的に関連付けられているが、マスク付き言語モデルでは、この能力が「エマージ」されることを実証する。
恥ずかしいほど単純な推論手法により、既存のマスク付きモデルであるDeBERTaを、追加のトレーニングやアーキテクチャの変更なしに生成タスクを実行できる。
評価の結果,表層言語モデルと因果言語モデルは,タスクのカテゴリによって明らかに優れており,非常に異なる振る舞いを示すことが明らかとなった。
これらの補完的な強みは、フィールドがコンテキスト内学習の因果モデルにフォーカスしていることが制限されていることを示唆している。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Auto-ICL: In-Context Learning without Human Supervision [93.05202223767463]
本稿では,モデルが問題解決のための例と指示を自律的に生成できる自動文脈学習フレームワークを提案する。
さまざまなモデルやデータセットにわたる実験により、結果は、モデル生成コンテキストが人間の注釈付きコンテキストより優れていることを示している。
論文 参考訳(メタデータ) (2023-11-15T07:37:28Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Switch-BERT: Learning to Model Multimodal Interactions by Switching
Attention and Input [27.102030262319197]
共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。
Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。
結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2023-06-25T09:28:40Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Representing Knowledge by Spans: A Knowledge-Enhanced Model for
Information Extraction [7.077412533545456]
本稿では,エンティティとリレーションの両方の表現を同時に学習する事前学習モデルを提案する。
スパンをスパンモジュールで効率的に符号化することで、私たちのモデルはエンティティとそれらの関係を表現できますが、既存のモデルよりもパラメータが少なくなります。
論文 参考訳(メタデータ) (2022-08-20T07:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。