論文の概要: CoLLEGe: Concept Embedding Generation for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.15362v1
- Date: Fri, 22 Mar 2024 17:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:30:34.410128
- Title: CoLLEGe: Concept Embedding Generation for Large Language Models
- Title(参考訳): CoLLEGe: 大規模言語モデルのための概念埋め込み生成
- Authors: Ryan Teehan, Brenden Lake, Mengye Ren,
- Abstract要約: CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。
我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
- 参考スコア(独自算出の注目度): 12.812113254812028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current language models are unable to quickly learn new concepts on the fly, often requiring a more involved finetuning process to learn robustly. Prompting in-context is not robust to context distractions, and often fails to confer much information about the new concepts. Classic methods for few-shot word learning in NLP, relying on global word vectors, are less applicable to large language models. In this paper, we introduce a novel approach named CoLLEGe (Concept Learning with Language Embedding Generation) to modernize few-shot concept learning. CoLLEGe is a meta-learning framework capable of generating flexible embeddings for new concepts using a small number of example sentences or definitions. Our primary meta-learning objective is simply to facilitate a language model to make next word predictions in forthcoming sentences, making it compatible with language model pretraining. We design a series of tasks to test new concept learning in challenging real-world scenarios, including new word acquisition, definition inference, and verbal reasoning, and demonstrate that our method succeeds in each setting without task-specific training.
- Abstract(参考訳): 現在の言語モデルは、すぐに新しい概念を学習することができず、しばしば堅牢に学習するためにより複雑な微調整プロセスを必要とします。
コンテキスト内でのプロンプティングはコンテキストの混乱に対して堅牢ではなく、新しい概念に関する多くの情報を提供するのに失敗することが多い。
グローバルなワードベクトルに依存するNLPにおける数ショットワード学習の古典的手法は、大規模言語モデルには適用できない。
本稿では,CoLLEGe(Concept Learning with Language Embedding Generation)という新しいアプローチを導入する。
CoLLEGeはメタラーニングフレームワークであり、少数の例文や定義を使って新しい概念の柔軟な埋め込みを生成することができる。
我々の主なメタ学習目的は、単に言語モデルが次の文で次の単語を予測できるようにし、言語モデル事前学習と互換性を持たせることである。
我々は,新しい単語獲得,定義推論,言語推論など,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計し,タスク固有のトレーニングを使わずに各設定でメソッドが成功することを示す。
関連論文リスト
- SLANG: New Concept Comprehension of Large Language Models [46.65436204783482]
大規模言語モデル(LLM)は、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するために苦労する。
我々のベンチマークとアプローチは、文脈ビーコンとして機能する言語シフトの現実世界のインスタンスを理解することである。
我々の因果推論に基づくアプローチは、インターネットスラングやミームの理解において、精度と関連性の観点から、ベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2024-01-23T09:33:31Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Evolving Dictionary Representation for Few-shot Class-incremental
Learning [34.887690018011675]
数発クラス増分学習(FSCIL)という,挑戦的で実践的な連続学習シナリオに取り組む。
FSCILでは、ラベル付きデータはベースセッションでクラスに対して与えられるが、新しいインクリメンタルクラスでは非常に限定されたラベル付きインスタンスが利用できる。
本稿では,辞書学習と視覚表現学習を組み合わせたハイブリッド学習アーキテクチャであるディープ辞書学習を提案する。
論文 参考訳(メタデータ) (2023-05-03T04:30:34Z) - ConceptX: A Framework for Latent Concept Analysis [21.760620298330235]
本稿では,言語モデル(pLM)における潜在表現空間の解釈と注釈付けを行うための,ループ型ヒューマン・イン・ザ・ループ・フレームワークであるConceptXを提案する。
我々は、教師なしの手法を用いて、これらのモデルで学んだ概念を発見し、人間が概念の説明を生成するためのグラフィカルインターフェースを実現する。
論文 参考訳(メタデータ) (2022-11-12T11:31:09Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - CoLLIE: Continual Learning of Language Grounding from Language-Image
Embeddings [2.8478710949588284]
CoLLIEは、言語がどのように視覚に根ざされているかの継続的な学習のモデルである。
新しい言語の使用に対応するために必要な言語埋め込みを調整する変換関数を学習する。
ごく少数の例から,CoLLIEが効率的に学習し,一般化できることが示される。
論文 参考訳(メタデータ) (2021-11-15T18:54:58Z) - Distilling Linguistic Context for Language Model Compression [27.538080564616703]
計算コストが高く、メモリ集約型ニューラルネットワークは、最近の言語表現学習の成功の背後にある。
本稿では,2種類の関係を通して文脈知識を伝達する言語表現学習のための新しい知識蒸留目標を提案する。
言語理解タスクの挑戦的ベンチマークにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2021-09-17T05:51:45Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。