論文の概要: EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations
- arxiv url: http://arxiv.org/abs/2410.10315v2
- Date: Tue, 15 Oct 2024 02:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:24:32.222643
- Title: EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations
- Title(参考訳): EasyRAG: 自動ネットワーク操作のための効率的な検索拡張生成フレームワーク
- Authors: Zhangchi Feng, Dongdong Kuang, Zhongyuan Wang, Zhijie Nie, Yaowei Zheng, Richong Zhang,
- Abstract要約: 本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
第2の方法は,BM25検索とBGE-Rerankerのリグレードから成り,どのモデルも微調整する必要がなく,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後のものは効率的な推論であり、我々は粗いランク付け、再ランク付け、生成プロセス全体の効率的な推論促進スキームを設計した。
- 参考スコア(独自算出の注目度): 24.142649256624082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents EasyRAG, a simple, lightweight, and efficient retrieval-augmented generation framework for automated network operations. Our framework has three advantages. The first is accurate question answering. We designed a straightforward RAG scheme based on (1) a specific data processing workflow (2) dual-route sparse retrieval for coarse ranking (3) LLM Reranker for reranking (4) LLM answer generation and optimization. This approach achieved first place in the GLM4 track in the preliminary round and second place in the GLM4 track in the semifinals. The second is simple deployment. Our method primarily consists of BM25 retrieval and BGE-reranker reranking, requiring no fine-tuning of any models, occupying minimal VRAM, easy to deploy, and highly scalable; we provide a flexible code library with various search and generation strategies, facilitating custom process implementation. The last one is efficient inference. We designed an efficient inference acceleration scheme for the entire coarse ranking, reranking, and generation process that significantly reduces the inference latency of RAG while maintaining a good level of accuracy; each acceleration scheme can be plug-and-play into any component of the RAG process, consistently enhancing the efficiency of the RAG system. Our code and data are released at \url{https://github.com/BUAADreamer/EasyRAG}.
- Abstract(参考訳): 本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
1つ目は正確な質問応答である。
本研究では,(1)データ処理ワークフローに基づく単純なRAG方式を設計し,(2)粗いランク付けのための二重経路スパース検索 (3) LLM 応答生成と最適化のための再ランク付けのための LLM 再ランカを設計した。
このアプローチは、GLM4トラックの予選ラウンドで1位、準決勝で2位となった。
2つ目は、シンプルなデプロイメントです。
本手法は主にBM25検索とBGE-rerankerのリグレードで構成されており,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後の1つは効率的な推論である。
我々は,RAGプロセスの任意のコンポーネントに各アクセラレーションスキームをプラグアンドプレイ可能とし,RAGシステムの効率を一貫して向上させるとともに,高い精度を維持しつつ,RAGの推論遅延を大幅に低減する,粗いランク付け,再ランク付け,生成プロセス全体の効率的な推論アクセラレーションスキームを設計した。
我々のコードとデータは \url{https://github.com/BUAADreamer/EasyRAG} でリリースされます。
関連論文リスト
- ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。
具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2024-06-22T06:51:47Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - R2GenGPT: Radiology Report Generation with Frozen LLMs [47.72270349660438]
R2GenGPTは、視覚的特徴をLLMの単語埋め込み空間と整合させる新しいソリューションである。
R2GenGPTは、軽量なビジュアルアライメントモジュールのみをトレーニングすることで、最先端(SOTA)のパフォーマンスを実現する。
我々のモデルは、SOTAレベルに近い性能を達成するために、500Mパラメータのみを訓練する。
論文 参考訳(メタデータ) (2023-09-18T14:35:35Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。