論文の概要: The Web Can Be Your Oyster for Improving Large Language Models
- arxiv url: http://arxiv.org/abs/2305.10998v1
- Date: Thu, 18 May 2023 14:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:46:19.787925
- Title: The Web Can Be Your Oyster for Improving Large Language Models
- Title(参考訳): Webは、大規模言語モデルを改善するためのOysterになれる
- Authors: Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jingyuan Wang, Jian-Yun Nie and
Ji-Rong Wen
- Abstract要約: 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
- 参考スコア(独自算出の注目度): 98.72358969495835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) encode a large amount of world knowledge.
However, as such knowledge is frozen at the time of model training, the models
become static and limited by the training data at that time. In order to
further improve the capacity of LLMs for knowledge-intensive tasks, we consider
augmenting LLMs with the large-scale web using search engine. Unlike previous
augmentation sources (e.g., Wikipedia data dump), the web provides broader,
more comprehensive and constantly updated information. In this paper, we
present a web-augmented LLM UNIWEB, which is trained over 16
knowledge-intensive tasks in a unified text-to-text format. Instead of simply
using the retrieved contents from web, our approach has made two major
improvements. Firstly, we propose an adaptive search engine assisted learning
method that can self-evaluate the confidence level of LLM's predictions, and
adaptively determine when to refer to the web for more data, which can avoid
useless or noisy augmentation from web. Secondly, we design a pretraining task,
i.e., continual knowledge learning, based on salient spans prediction, to
reduce the discrepancy between the encoded and retrieved knowledge. Experiments
on a wide range of knowledge-intensive tasks show that our model significantly
outperforms previous retrieval-augmented methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
しかし、そのような知識はモデルトレーニング時に凍結されるため、モデルは静的になり、当時のトレーニングデータによって制限される。
知識集約型タスクにおけるLLMの能力をさらに向上するために,検索エンジンを用いた大規模WebによるLLMの拡張を検討する。
以前の拡張ソース(例えばウィキペディアのデータダンプ)とは異なり、ウェブはより広く、より包括的で常に更新された情報を提供する。
本稿では,16以上の知識集約型タスクを統一的なテキスト・テキスト・フォーマットで学習する web 型 llm uniweb を提案する。
Webから取得したコンテンツを使う代わりに、我々のアプローチは2つの大きな改善を行った。
まず,llmの予測の信頼度を自己評価し,さらに多くのデータに対してwebを参照するタイミングを適応的に決定できる適応型検索エンジン支援学習手法を提案する。
第二に,事前学習課題である連続的知識学習(continual knowledge learning)をsalient spansの予測に基づいて設計し,符号化された知識と検索された知識の差異を低減させる。
幅広い知識集約型タスクの実験により、我々のモデルは従来の検索強化手法よりも大幅に優れていた。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - Leveraging Large Language Models for Web Scraping [0.0]
本研究では,言語生成用に設計したRAGモデルに対して,汎用的な高精度なデータスクレイピング手法について検討する。
よりモジュール的で解釈可能な方法で知識をキャプチャするために、私たちは、潜在的な知識検索機能を備えた事前訓練された言語モデルを使用します。
論文 参考訳(メタデータ) (2024-06-12T14:15:15Z) - GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。
本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。
本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T01:16:04Z) - Large Scale Knowledge Washing [24.533316191149677]
大規模な言語モデルは、世界の知識を記憶する素晴らしい能力を示している。
本稿では,大規模な知識洗浄の問題を紹介し,膨大な事実知識の学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-26T23:29:49Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Knowledge Efficient Deep Learning for Natural Language Processing [2.2701338128113124]
この論文は、現代のディープラーニングモデルとアルゴリズムに古典的手法を適用することに焦点を当てている。
まず,事前知識を深層モデルに組み込むための統合学習フレームワークとして,知識豊富な深層学習モデル(KRDL)を提案する。
第2に,KRDLモデルを機械読解モデルに応用し,その決定を裏付ける正しい証拠文を見つける。
論文 参考訳(メタデータ) (2020-08-28T23:32:33Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。