論文の概要: Efficient In-Domain Question Answering for Resource-Constrained Environments
- arxiv url: http://arxiv.org/abs/2409.17648v1
- Date: Thu, 26 Sep 2024 08:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 21:53:57.446114
- Title: Efficient In-Domain Question Answering for Resource-Constrained Environments
- Title(参考訳): 資源制約のある環境に対する効果的な内部質問応答
- Authors: Isaac Chung, Phat Vo, Arman Kizilkale, Aaron Reite,
- Abstract要約: Retrieval Augmented Generation (RAG)は、事前訓練された大規模言語モデル(LLM)に外部知識を統合する方法である。
近年の研究では、これらの問題に対処するために微調整を使うことが成功している。
本研究では,RAFTとLoRAを組み合わせることで,微調整やストレージの要求を低減し,推論時間を短縮する。
- 参考スコア(独自算出の注目度): 0.07499722271664146
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval Augmented Generation (RAG) is a common method for integrating external knowledge into pretrained Large Language Models (LLMs) to enhance accuracy and relevancy in question answering (QA) tasks. However, prompt engineering and resource efficiency remain significant bottlenecks in developing optimal and robust RAG solutions for real-world QA applications. Recent studies have shown success in using fine tuning to address these problems; in particular, Retrieval Augmented Fine Tuning (RAFT) applied to smaller 7B models has demonstrated superior performance compared to RAG setups with much larger models such as GPT-3.5. The combination of RAFT with parameter-efficient fine tuning (PEFT) techniques, such as Low-Rank Adaptation (LoRA), promises an even more efficient solution, yet remains an unexplored area. In this work, we combine RAFT with LoRA to reduce fine tuning and storage requirements and gain faster inference times while maintaining comparable RAG performance. This results in a more compute-efficient RAFT, or CRAFT, which is particularly useful for knowledge-intensive QA tasks in resource-constrained environments where internet access may be restricted and hardware resources limited.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) は、質問応答(QA)タスクの精度と関連性を高めるために、外部知識を事前訓練された大規模言語モデル(LLM)に統合する一般的な方法である。
しかし、実世界のQAアプリケーションに最適で堅牢なRAGソリューションを開発する上で、迅速なエンジニアリングと資源効率は依然として重大なボトルネックとなっている。
近年の研究では、これらの問題に対処するために微調整を用いることが成功しており、特に、より小型の7Bモデルに適用されたRetrieval Augmented Fine Tuning(RAFT)は、GPT-3.5のようなはるかに大きなモデルを持つRAGセットアップよりも優れた性能を示している。
RAFTとLow-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整(PEFT)技術の組み合わせにより、より効率的な解が期待できるが、まだ探索されていない領域である。
本研究では,RAFTとLoRAを組み合わせることで,微調整とストレージの要求を低減し,RAG性能を同等に保ちつつ,推論時間を短縮する。
これにより、より計算効率のよいRAFT(CRAFT)が実現し、インターネットアクセスが制限され、ハードウェアリソースが制限されるリソース制約のある環境での知識集約型QAタスクに特に有用である。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - GeoLoRA: Geometric integration for parameter efficient fine-tuning [6.701651480567394]
Low-Rank Adaptation (LoRA) は、事前学習されたニューラルネットワークのパラメータ効率の高い微調整法として広く使われている。
動的低ランク近似理論を応用した新しいアプローチであるGeoLoRAを導入する。
その結果,GeoLoRAの精度と計算効率の両面において既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T13:26:10Z) - AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。
BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。
その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文 参考訳(メタデータ) (2024-10-16T01:57:56Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Lighter And Better: Towards Flexible Context Adaptation For Retrieval Augmented Generation [32.26885597587913]
我々はFlexRAG(Flexible Context Adaptation for RAG)と呼ばれる新しいアプローチを導入する。
このアプローチでは、検索したコンテキストは、LLM(Large Language Models)によって符号化される前に、コンパクトな埋め込みに圧縮される。
FlexRAGの重要な特徴は柔軟性であり、多様な圧縮比を効果的にサポートし、重要なコンテキストを選択的に保存することを可能にする。
論文 参考訳(メタデータ) (2024-09-24T03:25:36Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。