論文の概要: EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations
- arxiv url: http://arxiv.org/abs/2410.10315v2
- Date: Tue, 15 Oct 2024 02:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 10:09:42.502071
- Title: EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations
- Title(参考訳): EasyRAG: 自動ネットワーク操作のための効率的な検索拡張生成フレームワーク
- Authors: Zhangchi Feng, Dongdong Kuang, Zhongyuan Wang, Zhijie Nie, Yaowei Zheng, Richong Zhang,
- Abstract要約: 本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
第2の方法は,BM25検索とBGE-Rerankerのリグレードから成り,どのモデルも微調整する必要がなく,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後のものは効率的な推論であり、我々は粗いランク付け、再ランク付け、生成プロセス全体の効率的な推論促進スキームを設計した。
- 参考スコア(独自算出の注目度): 24.142649256624082
- License:
- Abstract: This paper presents EasyRAG, a simple, lightweight, and efficient retrieval-augmented generation framework for automated network operations. Our framework has three advantages. The first is accurate question answering. We designed a straightforward RAG scheme based on (1) a specific data processing workflow (2) dual-route sparse retrieval for coarse ranking (3) LLM Reranker for reranking (4) LLM answer generation and optimization. This approach achieved first place in the GLM4 track in the preliminary round and second place in the GLM4 track in the semifinals. The second is simple deployment. Our method primarily consists of BM25 retrieval and BGE-reranker reranking, requiring no fine-tuning of any models, occupying minimal VRAM, easy to deploy, and highly scalable; we provide a flexible code library with various search and generation strategies, facilitating custom process implementation. The last one is efficient inference. We designed an efficient inference acceleration scheme for the entire coarse ranking, reranking, and generation process that significantly reduces the inference latency of RAG while maintaining a good level of accuracy; each acceleration scheme can be plug-and-play into any component of the RAG process, consistently enhancing the efficiency of the RAG system. Our code and data are released at \url{https://github.com/BUAADreamer/EasyRAG}.
- Abstract(参考訳): 本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
1つ目は正確な質問応答である。
本研究では,(1)データ処理ワークフローに基づく単純なRAG方式を設計し,(2)粗いランク付けのための二重経路スパース検索 (3) LLM 応答生成と最適化のための再ランク付けのための LLM 再ランカを設計した。
このアプローチは、GLM4トラックの予選ラウンドで1位、準決勝で2位となった。
2つ目は、シンプルなデプロイメントです。
本手法は主にBM25検索とBGE-rerankerのリグレードで構成されており,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後の1つは効率的な推論である。
我々は,RAGプロセスの任意のコンポーネントに各アクセラレーションスキームをプラグアンドプレイ可能とし,RAGシステムの効率を一貫して向上させるとともに,高い精度を維持しつつ,RAGの推論遅延を大幅に低減する,粗いランク付け,再ランク付け,生成プロセス全体の効率的な推論アクセラレーションスキームを設計した。
我々のコードとデータは \url{https://github.com/BUAADreamer/EasyRAG} でリリースされます。
関連論文リスト
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation [37.456499537121886]
大規模言語モデルの最近の進歩はML/AI開発に変化をもたらした。
大規模言語モデルの最近の進歩は、検索・拡張生成(RAG)システムにおけるAutoMLの原則を変革している。
論文 参考訳(メタデータ) (2024-06-27T15:18:21Z) - EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。
具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2024-06-22T06:51:47Z) - Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System
Co-design [16.76965926088238]
PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。
評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
論文 参考訳(メタデータ) (2024-03-08T21:09:20Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - R2GenGPT: Radiology Report Generation with Frozen LLMs [47.72270349660438]
R2GenGPTは、視覚的特徴をLLMの単語埋め込み空間と整合させる新しいソリューションである。
R2GenGPTは、軽量なビジュアルアライメントモジュールのみをトレーニングすることで、最先端(SOTA)のパフォーマンスを実現する。
我々のモデルは、SOTAレベルに近い性能を達成するために、500Mパラメータのみを訓練する。
論文 参考訳(メタデータ) (2023-09-18T14:35:35Z) - Learning towards Synchronous Network Memorizability and Generalizability
for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。
既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。
本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文 参考訳(メタデータ) (2022-06-14T13:04:36Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。