論文の概要: Improving Retrieval-Augmented Large Language Models via Data Importance
Learning
- arxiv url: http://arxiv.org/abs/2307.03027v1
- Date: Thu, 6 Jul 2023 14:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:47:09.188856
- Title: Improving Retrieval-Augmented Large Language Models via Data Importance
Learning
- Title(参考訳): データ重要度学習による検索型大規模言語モデルの改善
- Authors: Xiaozhong Lyu, Stefan Grafberger, Samantha Biegel, Shaopeng Wei, Meng
Cao, Sebastian Schelter, Ce Zhang
- Abstract要約: 本稿では,検索したデータポイントの重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。
マルチ線形拡張に基づく重み付けは, 実際に効率的に計算可能であることを示す。
- 参考スコア(独自算出の注目度): 27.97176983906107
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval augmentation enables large language models to take advantage of
external knowledge, for example on tasks like question answering and data
imputation. However, the performance of such retrieval-augmented models is
limited by the data quality of their underlying retrieval corpus. In this
paper, we propose an algorithm based on multilinear extension for evaluating
the data importance of retrieved data points. There are exponentially many
terms in the multilinear extension, and one key contribution of this paper is a
polynomial time algorithm that computes exactly, given a retrieval-augmented
model with an additive utility function and a validation set, the data
importance of data points in the retrieval corpus using the multilinear
extension of the model's utility function. We further proposed an even more
efficient ({\epsilon}, {\delta})-approximation algorithm. Our experimental
results illustrate that we can enhance the performance of large language models
by only pruning or reweighting the retrieval corpus, without requiring further
training. For some tasks, this even allows a small model (e.g., GPT-JT),
augmented with a search engine API, to outperform GPT-3.5 (without retrieval
augmentation). Moreover, we show that weights based on multilinear extension
can be computed efficiently in practice (e.g., in less than ten minutes for a
corpus with 100 million elements).
- Abstract(参考訳): Retrieval Augmentationは、例えば質問応答やデータ計算といったタスクにおいて、大きな言語モデルで外部の知識を活用できるようにする。
しかし,このような検索提示モデルの性能は,検索コーパスのデータ品質によって制限される。
本稿では,検索したデータポイントのデータ重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。
マルチリニア拡張には指数関数的に多くの項があり、本論文の重要な貢献の一つは、付加効用関数と検証セットを備えた検索指定モデルが与えられたとき、モデルユーティリティ関数のマルチリニア拡張を用いた検索コーパスにおけるデータポイントの重要度を正確に計算する多項式時間アルゴリズムである。
さらに,より効率的な近似アルゴリズム({\epsilon, {\delta})を提案した。
実験結果から,検索コーパスのプルーニングや再重み付けのみを必要とせずに,大規模言語モデルの性能を向上させることができることがわかった。
一部のタスクでは、小さなモデル(例えば、GPT-JT)を検索エンジンAPIで拡張し、GPT-3.5を(検索拡張なしで)上回ることができる。
さらに,マルチリニア拡張に基づく重みは,実際に効率的に計算できることを示す(例えば,1億要素のコーパスに対して10分以内で計算できる)。
関連論文リスト
- Exploring Learning Complexity for Downstream Data Pruning [9.526877053855998]
本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - How to Unleash the Power of Large Language Models for Few-shot Relation
Extraction? [28.413620806193165]
本稿では,GPT-3.5による数ショット関係抽出のための主要な手法,文脈内学習とデータ生成について検討する。
テキスト内学習は,従来の素早い学習手法と同等のパフォーマンスを達成でき,大規模言語モデルによるデータ生成は,従来のソリューションを推し進めて,最先端の複数ショットの新たな結果が得られることを観察する。
論文 参考訳(メタデータ) (2023-05-02T15:55:41Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - RETRONLU: Retrieval Augmented Task-Oriented Semantic Parsing [11.157958012672202]
マルチドメインタスク指向のセマンティックパーシングの問題に対して,検索に基づくモデリングのアイデアを適用している。
我々のアプローチであるRetroNLUは、シーケンス・ツー・シーケンス・モデルアーキテクチャを検索コンポーネントで拡張する。
近隣の検索コンポーネントの品質、モデルの感度を分析し、発話の複雑さの異なる意味解析の性能を分解する。
論文 参考訳(メタデータ) (2021-09-21T19:30:30Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。