論文の概要: PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead
- arxiv url: http://arxiv.org/abs/2409.19745v1
- Date: Sun, 29 Sep 2024 15:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:11.990203
- Title: PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead
- Title(参考訳): PEAR:ゼロ推論オーバーヘッドによる位置埋め込み非依存再重み付け
- Authors: Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan,
- Abstract要約: 検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。
そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
- 参考スコア(独自算出の注目度): 24.611413814466978
- License:
- Abstract: Large language models (LLMs) enhanced with retrieval-augmented generation (RAG) have introduced a new paradigm for web search. However, the limited context awareness of LLMs degrades their performance on RAG tasks. Existing methods to enhance context awareness are often inefficient, incurring time or memory overhead during inference, and many are tailored to specific position embeddings. In this paper, we propose Position-Embedding-Agnostic attention Re-weighting (PEAR), which enhances the context awareness of LLMs with zero inference overhead. Specifically, on a proxy task focused on context copying, we first detect heads which suppress the models' context awareness thereby diminishing RAG performance. To weaken the impact of these heads, we re-weight their outputs with learnable coefficients. The LLM (with frozen parameters) is optimized by adjusting these coefficients to minimize loss on the proxy task. As a result, the coefficients are optimized to values less than one, thereby reducing their tendency to suppress RAG performance. During inference, the optimized coefficients are fixed to re-weight these heads, regardless of the specific task at hand. Our proposed PEAR offers two major advantages over previous approaches: (1) It introduces zero additional inference overhead in terms of memory usage or inference time, while outperforming competitive baselines in accuracy and efficiency across various RAG tasks. (2) It is independent of position embedding algorithms, ensuring broader applicability.
- Abstract(参考訳): 検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
しかしながら、LLMのコンテキスト認識はRAGタスクの性能を低下させる。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドを発生させ、多くは特定の位置の埋め込みに合わせて調整される。
本稿では,LLMの文脈認識をゼロ推論オーバーヘッドで促進する位置埋め込み・非依存型再重み付け(PEAR)を提案する。
具体的には、コンテキストコピーに焦点を当てたプロキシタスクにおいて、まず、モデルのコンテキスト認識を抑制するヘッドを検出し、RAG性能を低下させる。
これらの頭部の影響を弱めるため、学習可能な係数で出力を再重み付けする。
LLMは、プロキシタスクの損失を最小限に抑えるために、これらの係数を調整することで最適化される。
その結果、係数は1未満の値に最適化され、RAG性能を抑制する傾向が低下する。
推論中、最適化された係数は、手前の特定のタスクに関係なく、これらのヘッドを再重み付けするために固定される。
提案したPEARは, メモリ使用量や推定時間のオーバーヘッドをゼロにすると同時に, 各種RAGタスクにおける精度と効率の競争的ベースラインを上回りながら, 従来の手法に比べて2つの大きな利点がある。
2) 位置埋め込みアルゴリズムとは独立であり,より広い適用性を確保している。
関連論文リスト
- Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [19.447729423696096]
大規模言語モデルは様々な分野で優れているが、メモリと時間効率の課題に直面している。
最近の取り組みでは、KVキャッシュのサイズを所定のメモリ予算に減らし、実行中に巨大な非クリティカルキャッシュ要素を排除しようとしている。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。