論文の概要: Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models
- arxiv url: http://arxiv.org/abs/2210.16433v3
- Date: Mon, 27 Mar 2023 07:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:57:44.021403
- Title: Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models
- Title(参考訳): Knowledge-in-Context: 知識のあるセミパラメトリック言語モデルを目指して
- Authors: Xiaoman Pan, Wenlin Yao, Hongming Zhang, Dian Yu, Dong Yu, Jianshu
Chen
- Abstract要約: 我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
- 参考スコア(独自算出の注目度): 58.42146641102329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully-parametric language models generally require a huge number of model
parameters to store the necessary knowledge for solving multiple natural
language tasks in zero/few-shot settings. In addition, it is hard to adapt to
the evolving world knowledge without the costly model re-training. In this
paper, we develop a novel semi-parametric language model architecture,
Knowledge-in-Context (KiC), which empowers a parametric text-to-text language
model with a knowledge-rich external memory. Specifically, the external memory
contains six different types of knowledge: entity, dictionary, commonsense,
event, script, and causality knowledge. For each input instance, the KiC model
adaptively selects a knowledge type and retrieves the most helpful pieces of
knowledge. The input instance along with its knowledge augmentation is fed into
a text-to-text model (e.g., T5) to generate the output answer, where both the
input and the output are in natural language forms after prompting.
Interestingly, we find that KiC can be identified as a special
mixture-of-experts (MoE) model, where the knowledge selector plays the role of
a router that is used to determine the sequence-to-expert assignment in MoE.
This key observation inspires us to develop a novel algorithm for training KiC
with an instance-adaptive knowledge selector. As a knowledge-rich
semi-parametric language model, KiC only needs a much smaller parametric part
to achieve superior zero-shot performance on unseen tasks. By evaluating on 40+
different tasks, we show that KiC_Large with 770M parameters easily outperforms
large language models (LMs) that are 4-39x larger by a large margin. We also
demonstrate that KiC exhibits emergent abilities at a much smaller model scale
compared to the fully-parametric models.
- Abstract(参考訳): 完全なパラメトリック言語モデルは一般に、ゼロ/フェーショット設定で複数の自然言語タスクを解くために必要な知識を保持するために、膨大な数のモデルパラメータを必要とする。
さらに、コストのかかるモデルの再トレーニングなしでは、進化する世界の知識に適応することは困難です。
本稿では,知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを実現する,半パラメトリック言語モデルアーキテクチャであるKnowledge-in-Context(KiC)を開発する。
具体的には、外部メモリにはエンティティ、辞書、コモンセンス、イベント、スクリプト、因果関係の6種類の知識が含まれている。
各入力インスタンスに対して、KiCモデルは適応的に知識タイプを選択し、最も有用な知識を検索する。
入力インスタンスとその知識増強と共にテキスト・ツー・テキストモデル(例えばT5)に入力され、入力と出力の両方が処理後に自然言語形式で出力される出力応答を生成する。
興味深いことに、kicは、知識セレクタがmoeのシーケンスから専門家への割り当てを決定するルータの役割を担っている特別な専門家の混合(moe)モデルとして識別できる。
このキーとなる観察は、インスタンス適応型知識セレクタでKiCをトレーニングするための新しいアルゴリズムを開発するきっかけとなった。
知識豊富なセミパラメトリック言語モデルとして、kicは目に見えないタスクで優れたゼロショット性能を達成するために、はるかに小さなパラメトリック部分しか必要としない。
40以上のタスクを評価することで、770Mパラメータを持つKiC_Largeが、大きなマージンの4-39倍の大規模言語モデル(LM)よりも容易に優れていることを示す。
また,KiCは完全パラメトリックモデルよりもはるかに小さなモデルスケールで創発能力を示すことを示した。
関連論文リスト
- Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Semi-Structured Chain-of-Thought: Integrating Multiple Sources of Knowledge for Improved Language Model Reasoning [10.839645156881573]
本稿では,テキスト文書からの非構造化知識と知識グラフからの構造化知識とをシームレスに統合する,新しい半構造化プロンプト手法を提案する。
オープンドメイン型マルチホップ質問応答データセットの実験結果から,提案手法が既存の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-11-14T19:53:53Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Knowledge Efficient Deep Learning for Natural Language Processing [2.2701338128113124]
この論文は、現代のディープラーニングモデルとアルゴリズムに古典的手法を適用することに焦点を当てている。
まず,事前知識を深層モデルに組み込むための統合学習フレームワークとして,知識豊富な深層学習モデル(KRDL)を提案する。
第2に,KRDLモデルを機械読解モデルに応用し,その決定を裏付ける正しい証拠文を見つける。
論文 参考訳(メタデータ) (2020-08-28T23:32:33Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - How Much Knowledge Can You Pack Into the Parameters of a Language Model? [44.81324633069311]
構造化されていないテキストでトレーニングされたニューラルネットワークモデルは、自然言語クエリを使用して暗黙的に知識を格納し、取得することができる。
我々は、事前学習したモデルを微調整して、外部の文脈や知識にアクセスせずに質問に答えることにより、このアプローチの実用性を測定する。
論文 参考訳(メタデータ) (2020-02-10T18:55:58Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。