Fugu-MT 論文翻訳(概要): The Web Can Be Your Oyster for Improving Large Language Models

論文の概要: The Web Can Be Your Oyster for Improving Large Language Models

arxiv url: http://arxiv.org/abs/2305.10998v2
Date: Wed, 24 May 2023 09:35:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 00:54:24.534125
Title: The Web Can Be Your Oyster for Improving Large Language Models
Title（参考訳）: Webは、大規模言語モデルを改善するためのOysterになれる
Authors: Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jingyuan Wang, Jian-Yun Nie and Ji-Rong Wen
Abstract要約: 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
参考スコア（独自算出の注目度）: 98.72358969495835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) encode a large amount of world knowledge. However, as such knowledge is frozen at the time of model training, the models become static and limited by the training data at that time. In order to further improve the capacity of LLMs for knowledge-intensive tasks, we consider augmenting LLMs with the large-scale web using search engine. Unlike previous augmentation sources (e.g., Wikipedia data dump), the web provides broader, more comprehensive and constantly updated information. In this paper, we present a web-augmented LLM UNIWEB, which is trained over 16 knowledge-intensive tasks in a unified text-to-text format. Instead of simply using the retrieved contents from web, our approach has made two major improvements. Firstly, we propose an adaptive search engine assisted learning method that can self-evaluate the confidence level of LLM's predictions, and adaptively determine when to refer to the web for more data, which can avoid useless or noisy augmentation from web. Secondly, we design a pretraining task, i.e., continual knowledge learning, based on salient spans prediction, to reduce the discrepancy between the encoded and retrieved knowledge. Experiments on a wide range of knowledge-intensive tasks show that our model significantly outperforms previous retrieval-augmented methods.
Abstract（参考訳）: 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。しかし、そのような知識はモデルトレーニング時に凍結されるため、モデルは静的になり、当時のトレーニングデータによって制限される。知識集約型タスクにおけるLLMの能力をさらに向上するために,検索エンジンを用いた大規模WebによるLLMの拡張を検討する。以前の拡張ソース(例えばウィキペディアのデータダンプ)とは異なり、ウェブはより広く、より包括的で常に更新された情報を提供する。本稿では,16以上の知識集約型タスクを統一的なテキスト・テキスト・フォーマットで学習する web 型 llm uniweb を提案する。 Webから取得したコンテンツを使う代わりに、我々のアプローチは2つの大きな改善を行った。まず,llmの予測の信頼度を自己評価し,さらに多くのデータに対してwebを参照するタイミングを適応的に決定できる適応型検索エンジン支援学習手法を提案する。第二に,事前学習課題である連続的知識学習(continual knowledge learning)をsalient spansの予測に基づいて設計し,符号化された知識と検索された知識の差異を低減させる。幅広い知識集約型タスクの実験により、我々のモデルは従来の検索強化手法よりも大幅に優れていた。

関連論文リスト

Comparing Knowledge Injection Methods for LLMs in a Low-Resource Regime [13.230760040927496]
大規模言語モデルに小さな非構造化情報を注入する作業について検討する。制限されたデータに対する事前トレーニングを継続するだけで、控えめな改善が得られます。私たちは、小さなデータ体制における忘れる現象に光を当て、新しいコンテンツ学習と既存の能力維持の微妙なバランスを図った。
論文参考訳（メタデータ） (2025-08-08T09:48:32Z)
Learning-Time Encoding Shapes Unlearning in LLMs [25.48677069802298]
知識エンコーディングにおける学習時間選択が、未学習の事実知識の有効性に与える影響について検討する。この結果から,学習時の知識符号化は,信頼性の高いポストホック・アンラーニングを実現する上で重要な役割を担っている可能性が示唆された。
論文参考訳（メタデータ） (2025-06-18T02:42:02Z)
Efficient Tuning of Large Language Models for Knowledge-Grounded Dialogue Generation [21.52726424882653]
KEDiTは、知識基底対話生成のための大規模言語モデルを微調整する効率的な方法である。まず、検索した知識を学習可能なパラメータに圧縮するために情報ボトルネックを使用し、計算オーバーヘッドを最小限に抑えながら重要な情報を保持する。ウィキペディアのウィザードと新しく構築されたPubMed-Dialogデータセットの実験結果は、KEDiTが文脈的に関連があり、情報的な応答を生成するのに優れていることを示している。
論文参考訳（メタデータ） (2025-04-10T13:54:36Z)
Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文参考訳（メタデータ） (2025-03-05T17:56:20Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文参考訳（メタデータ） (2024-08-02T07:51:44Z)
Leveraging Large Language Models for Web Scraping [0.0]
本研究では,言語生成用に設計したRAGモデルに対して,汎用的な高精度なデータスクレイピング手法について検討する。よりモジュール的で解釈可能な方法で知識をキャプチャするために、私たちは、潜在的な知識検索機能を備えた事前訓練された言語モデルを使用します。
論文参考訳（メタデータ） (2024-06-12T14:15:15Z)
GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? [36.987716816134984]
本稿では,更新の連続サイクルを経たGrowOVER-QAとGrowOVER-Dialogue,動的オープンドメインQA,ダイアログベンチマークを提案する。本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。本稿では,新たな検索対話型言語モデルフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-09T01:16:04Z)
Large Scale Knowledge Washing [24.533316191149677]
大規模な言語モデルは、世界の知識を記憶する素晴らしい能力を示している。本稿では,大規模な知識洗浄の問題を紹介し,膨大な事実知識の学習に焦点をあてる。
論文参考訳（メタデータ） (2024-05-26T23:29:49Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。 2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文参考訳（メタデータ） (2023-11-14T09:12:40Z)
Knowledge Efficient Deep Learning for Natural Language Processing [2.2701338128113124]
この論文は、現代のディープラーニングモデルとアルゴリズムに古典的手法を適用することに焦点を当てている。まず,事前知識を深層モデルに組み込むための統合学習フレームワークとして,知識豊富な深層学習モデル(KRDL)を提案する。第2に,KRDLモデルを機械読解モデルに応用し,その決定を裏付ける正しい証拠文を見つける。
論文参考訳（メタデータ） (2020-08-28T23:32:33Z)
REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文参考訳（メタデータ） (2020-02-10T18:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。