論文の概要: The Web Can Be Your Oyster for Improving Large Language Models
- arxiv url: http://arxiv.org/abs/2305.10998v2
- Date: Wed, 24 May 2023 09:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:54:24.534125
- Title: The Web Can Be Your Oyster for Improving Large Language Models
- Title(参考訳): Webは、大規模言語モデルを改善するためのOysterになれる
- Authors: Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jingyuan Wang, Jian-Yun Nie and
Ji-Rong Wen
- Abstract要約: 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
- 参考スコア(独自算出の注目度): 98.72358969495835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) encode a large amount of world knowledge.
However, as such knowledge is frozen at the time of model training, the models
become static and limited by the training data at that time. In order to
further improve the capacity of LLMs for knowledge-intensive tasks, we consider
augmenting LLMs with the large-scale web using search engine. Unlike previous
augmentation sources (e.g., Wikipedia data dump), the web provides broader,
more comprehensive and constantly updated information. In this paper, we
present a web-augmented LLM UNIWEB, which is trained over 16
knowledge-intensive tasks in a unified text-to-text format. Instead of simply
using the retrieved contents from web, our approach has made two major
improvements. Firstly, we propose an adaptive search engine assisted learning
method that can self-evaluate the confidence level of LLM's predictions, and
adaptively determine when to refer to the web for more data, which can avoid
useless or noisy augmentation from web. Secondly, we design a pretraining task,
i.e., continual knowledge learning, based on salient spans prediction, to
reduce the discrepancy between the encoded and retrieved knowledge. Experiments
on a wide range of knowledge-intensive tasks show that our model significantly
outperforms previous retrieval-augmented methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
しかし、そのような知識はモデルトレーニング時に凍結されるため、モデルは静的になり、当時のトレーニングデータによって制限される。
知識集約型タスクにおけるLLMの能力をさらに向上するために,検索エンジンを用いた大規模WebによるLLMの拡張を検討する。
以前の拡張ソース(例えばウィキペディアのデータダンプ)とは異なり、ウェブはより広く、より包括的で常に更新された情報を提供する。
本稿では,16以上の知識集約型タスクを統一的なテキスト・テキスト・フォーマットで学習する web 型 llm uniweb を提案する。
Webから取得したコンテンツを使う代わりに、我々のアプローチは2つの大きな改善を行った。
まず,llmの予測の信頼度を自己評価し,さらに多くのデータに対してwebを参照するタイミングを適応的に決定できる適応型検索エンジン支援学習手法を提案する。
第二に,事前学習課題である連続的知識学習(continual knowledge learning)をsalient spansの予測に基づいて設計し,符号化された知識と検索された知識の差異を低減させる。
幅広い知識集約型タスクの実験により、我々のモデルは従来の検索強化手法よりも大幅に優れていた。
関連論文リスト
- Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Do LLMs Dream of Ontologies? [15.049502693786698]
大規模言語モデル(LLM)は、最近、自動テキスト理解と生成に革命をもたらした。
本稿では,汎用的な事前学習 LLM が,どの程度の知識を持つかを検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z) - Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs
for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。
本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。
KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Knowledge Efficient Deep Learning for Natural Language Processing [2.2701338128113124]
この論文は、現代のディープラーニングモデルとアルゴリズムに古典的手法を適用することに焦点を当てている。
まず,事前知識を深層モデルに組み込むための統合学習フレームワークとして,知識豊富な深層学習モデル(KRDL)を提案する。
第2に,KRDLモデルを機械読解モデルに応用し,その決定を裏付ける正しい証拠文を見つける。
論文 参考訳(メタデータ) (2020-08-28T23:32:33Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。