Fugu-MT 論文翻訳(概要): Improving Retrieval-Augmented Large Language Models via Data Importance Learning

論文の概要: Improving Retrieval-Augmented Large Language Models via Data Importance Learning

arxiv url: http://arxiv.org/abs/2307.03027v1
Date: Thu, 6 Jul 2023 14:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 13:47:09.188856
Title: Improving Retrieval-Augmented Large Language Models via Data Importance Learning
Title（参考訳）: データ重要度学習による検索型大規模言語モデルの改善
Authors: Xiaozhong Lyu, Stefan Grafberger, Samantha Biegel, Shaopeng Wei, Meng Cao, Sebastian Schelter, Ce Zhang
Abstract要約: 本稿では,検索したデータポイントの重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。マルチ線形拡張に基づく重み付けは, 実際に効率的に計算可能であることを示す。
参考スコア（独自算出の注目度）: 27.97176983906107
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Retrieval augmentation enables large language models to take advantage of external knowledge, for example on tasks like question answering and data imputation. However, the performance of such retrieval-augmented models is limited by the data quality of their underlying retrieval corpus. In this paper, we propose an algorithm based on multilinear extension for evaluating the data importance of retrieved data points. There are exponentially many terms in the multilinear extension, and one key contribution of this paper is a polynomial time algorithm that computes exactly, given a retrieval-augmented model with an additive utility function and a validation set, the data importance of data points in the retrieval corpus using the multilinear extension of the model's utility function. We further proposed an even more efficient ({\epsilon}, {\delta})-approximation algorithm. Our experimental results illustrate that we can enhance the performance of large language models by only pruning or reweighting the retrieval corpus, without requiring further training. For some tasks, this even allows a small model (e.g., GPT-JT), augmented with a search engine API, to outperform GPT-3.5 (without retrieval augmentation). Moreover, we show that weights based on multilinear extension can be computed efficiently in practice (e.g., in less than ten minutes for a corpus with 100 million elements).
Abstract（参考訳）: Retrieval Augmentationは、例えば質問応答やデータ計算といったタスクにおいて、大きな言語モデルで外部の知識を活用できるようにする。しかし,このような検索提示モデルの性能は,検索コーパスのデータ品質によって制限される。本稿では,検索したデータポイントのデータ重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。マルチリニア拡張には指数関数的に多くの項があり、本論文の重要な貢献の一つは、付加効用関数と検証セットを備えた検索指定モデルが与えられたとき、モデルユーティリティ関数のマルチリニア拡張を用いた検索コーパスにおけるデータポイントの重要度を正確に計算する多項式時間アルゴリズムである。さらに,より効率的な近似アルゴリズム({\epsilon, {\delta})を提案した。実験結果から,検索コーパスのプルーニングや再重み付けのみを必要とせずに,大規模言語モデルの性能を向上させることができることがわかった。一部のタスクでは、小さなモデル(例えば、GPT-JT)を検索エンジンAPIで拡張し、GPT-3.5を(検索拡張なしで)上回ることができる。さらに,マルチリニア拡張に基づく重みは,実際に効率的に計算できることを示す(例えば,1億要素のコーパスに対して10分以内で計算できる)。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis [0.0]
複数の埋め込みモデルを用いた定サイズチャンキング戦略の評価と検索性能への影響について検討した。短文データセットと長文データセットの両方で行った実験により,チャンクサイズが検索効率において重要な役割を担っていることが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T19:39:16Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality [67.67387254989018]
各種計算予算およびデータフィルタリングと復号化によって生成された複数の事前学習データセットにおけるモデル性能について検討する。トレーニングレシピに適切な修正を加えると、最大10エポックのアグレッシブフィルタデータセットを繰り返すことで、複数の計算予算のオーダーで1エポックの10倍のスーパーセットでのトレーニングを上回ります。
論文参考訳（メタデータ） (2025-03-10T21:51:17Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-07-22T08:19:34Z)
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-09T08:27:27Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。 3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文参考訳（メタデータ） (2023-11-14T14:10:40Z)
How to Unleash the Power of Large Language Models for Few-shot Relation Extraction? [28.413620806193165]
本稿では,GPT-3.5による数ショット関係抽出のための主要な手法,文脈内学習とデータ生成について検討する。テキスト内学習は,従来の素早い学習手法と同等のパフォーマンスを達成でき,大規模言語モデルによるデータ生成は,従来のソリューションを推し進めて,最先端の複数ショットの新たな結果が得られることを観察する。
論文参考訳（メタデータ） (2023-05-02T15:55:41Z)
Compactness Score: A Fast Filter Method for Unsupervised Feature Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文参考訳（メタデータ） (2022-01-31T13:01:37Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。