論文の概要: Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing
- arxiv url: http://arxiv.org/abs/2502.12962v1
- Date: Tue, 18 Feb 2025 15:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:41.020124
- Title: Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing
- Title(参考訳): Infinite Retrieval: 長期処理における注意力強化LDM
- Authors: Xiaoju Ye, Zhichun Wang, Jingyuan Wang,
- Abstract要約: 大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。
そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。
InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
- 参考スコア(独自算出の注目度): 19.577278316436807
- License:
- Abstract: Limited by the context window size of Large Language Models(LLMs), handling various tasks with input tokens exceeding the upper limit has been challenging, whether it is a simple direct retrieval task or a complex multi-hop reasoning task. Although various methods have been proposed to enhance the long-context processing capabilities of LLMs, they either incur substantial post-training costs, or require additional tool modules(e.g.,RAG), or have not shown significant improvement in realistic tasks. Our work observes the correlation between the attention distribution and generated answers across each layer, and establishes the attention allocation aligns with retrieval-augmented capabilities through experiments. Drawing on the above insights, we propose a novel method InfiniRetri that leverages the LLMs's own attention information to enable accurate retrieval across inputs of infinitely length. Our evaluations indicate that InfiniRetri achieves 100% accuracy in the Needle-In-a-Haystack(NIH) test over 1M tokens using a 0.5B parameter model, surpassing other method or larger models and setting a new state-of-the-art(SOTA). Moreover, our method achieves significant performance improvements on real-world benchmarks, with a maximum 288% improvement. In addition, InfiniRetri can be applied to any Transformer-based LLMs without additional training and substantially reduces inference latency and compute overhead in long texts. In summary, our comprehensive studies show InfiniRetri's potential for practical applications and creates a paradigm for retrievaling information using LLMs own capabilities under infinite-length tokens. Code will be released in link.
- Abstract(参考訳): LLM(Large Language Models)のコンテキストウィンドウサイズによって制限されており、単純な直接検索タスクであっても、複雑なマルチホップ推論タスクであっても、上限を超える入力トークンで様々なタスクを処理することは困難である。
LLMの長文処理能力を高めるために様々な手法が提案されているが、訓練後のかなりのコストを発生させるか、追加のツールモジュール(例えばRAG)を必要とするか、現実的なタスクにおいて大幅な改善が示されていないかのいずれかである。
本研究は,各層にまたがるアテンション分布と生成した回答の相関関係を観察し,実験により,アテンションアロケーションとアテンションアロケーションとの整合性を確立する。
以上の知見に基づいて,LLMの注意情報を利用して無限長の入力を正確に検索する新しい手法InfiniRetriを提案する。
InfiniRetri は 0.5B パラメータモデルを用いて1M トークン上でのニードル・イン・ア・ヘイスタック(NIH) テストで100%精度を達成し,他の手法やより大きなモデルを超え,新しい最先端(SOTA) を設定した。
さらに,本手法は実世界のベンチマークにおいて,最大288%の精度で大幅な性能向上を実現している。
さらに、InfiniRetriは、追加のトレーニングなしでTransformerベースのLLMに適用でき、長文の推論遅延と計算オーバーヘッドを大幅に削減できる。
まとめて、我々はInfiniRetriの実用的な応用の可能性を示し、無限長のトークンの下でLLM自身の能力を用いて情報を検索するためのパラダイムを作成している。
コードはリンクでリリースされる。
関連論文リスト
- Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文 参考訳(メタデータ) (2024-08-22T08:16:07Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。