論文の概要: Improving Retrieval-Augmented Large Language Models via Data Importance
Learning
- arxiv url: http://arxiv.org/abs/2307.03027v1
- Date: Thu, 6 Jul 2023 14:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:47:09.188856
- Title: Improving Retrieval-Augmented Large Language Models via Data Importance
Learning
- Title(参考訳): データ重要度学習による検索型大規模言語モデルの改善
- Authors: Xiaozhong Lyu, Stefan Grafberger, Samantha Biegel, Shaopeng Wei, Meng
Cao, Sebastian Schelter, Ce Zhang
- Abstract要約: 本稿では,検索したデータポイントの重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。
マルチ線形拡張に基づく重み付けは, 実際に効率的に計算可能であることを示す。
- 参考スコア(独自算出の注目度): 27.97176983906107
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval augmentation enables large language models to take advantage of
external knowledge, for example on tasks like question answering and data
imputation. However, the performance of such retrieval-augmented models is
limited by the data quality of their underlying retrieval corpus. In this
paper, we propose an algorithm based on multilinear extension for evaluating
the data importance of retrieved data points. There are exponentially many
terms in the multilinear extension, and one key contribution of this paper is a
polynomial time algorithm that computes exactly, given a retrieval-augmented
model with an additive utility function and a validation set, the data
importance of data points in the retrieval corpus using the multilinear
extension of the model's utility function. We further proposed an even more
efficient ({\epsilon}, {\delta})-approximation algorithm. Our experimental
results illustrate that we can enhance the performance of large language models
by only pruning or reweighting the retrieval corpus, without requiring further
training. For some tasks, this even allows a small model (e.g., GPT-JT),
augmented with a search engine API, to outperform GPT-3.5 (without retrieval
augmentation). Moreover, we show that weights based on multilinear extension
can be computed efficiently in practice (e.g., in less than ten minutes for a
corpus with 100 million elements).
- Abstract(参考訳): Retrieval Augmentationは、例えば質問応答やデータ計算といったタスクにおいて、大きな言語モデルで外部の知識を活用できるようにする。
しかし,このような検索提示モデルの性能は,検索コーパスのデータ品質によって制限される。
本稿では,検索したデータポイントのデータ重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。
マルチリニア拡張には指数関数的に多くの項があり、本論文の重要な貢献の一つは、付加効用関数と検証セットを備えた検索指定モデルが与えられたとき、モデルユーティリティ関数のマルチリニア拡張を用いた検索コーパスにおけるデータポイントの重要度を正確に計算する多項式時間アルゴリズムである。
さらに,より効率的な近似アルゴリズム({\epsilon, {\delta})を提案した。
実験結果から,検索コーパスのプルーニングや再重み付けのみを必要とせずに,大規模言語モデルの性能を向上させることができることがわかった。
一部のタスクでは、小さなモデル(例えば、GPT-JT)を検索エンジンAPIで拡張し、GPT-3.5を(検索拡張なしで)上回ることができる。
さらに,マルチリニア拡張に基づく重みは,実際に効率的に計算できることを示す(例えば,1億要素のコーパスに対して10分以内で計算できる)。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - How to Unleash the Power of Large Language Models for Few-shot Relation
Extraction? [28.413620806193165]
本稿では,GPT-3.5による数ショット関係抽出のための主要な手法,文脈内学習とデータ生成について検討する。
テキスト内学習は,従来の素早い学習手法と同等のパフォーマンスを達成でき,大規模言語モデルによるデータ生成は,従来のソリューションを推し進めて,最先端の複数ショットの新たな結果が得られることを観察する。
論文 参考訳(メタデータ) (2023-05-02T15:55:41Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。