論文の概要: Efficient In-Domain Question Answering for Resource-Constrained Environments
- arxiv url: http://arxiv.org/abs/2409.17648v2
- Date: Mon, 30 Sep 2024 22:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:34:05.240387
- Title: Efficient In-Domain Question Answering for Resource-Constrained Environments
- Title(参考訳): 資源制約のある環境に対する効果的な内部質問応答
- Authors: Isaac Chung, Phat Vo, Arman Kizilkale, Aaron Reite,
- Abstract要約: Retrieval Augmented Generation (RAG)は、事前訓練された大規模言語モデル(LLM)に外部知識を統合する方法である。
近年の研究では、これらの問題に対処するために微調整を使うことが成功している。
本研究では,RAFTとLoRAを組み合わせることで,微調整やストレージの要求を低減し,推論時間を短縮する。
- 参考スコア(独自算出の注目度): 0.07499722271664146
- License:
- Abstract: Retrieval Augmented Generation (RAG) is a common method for integrating external knowledge into pretrained Large Language Models (LLMs) to enhance accuracy and relevancy in question answering (QA) tasks. However, prompt engineering and resource efficiency remain significant bottlenecks in developing optimal and robust RAG solutions for real-world QA applications. Recent studies have shown success in using fine tuning to address these problems; in particular, Retrieval Augmented Fine Tuning (RAFT) applied to smaller 7B models has demonstrated superior performance compared to RAG setups with much larger models such as GPT-3.5. The combination of RAFT with parameter-efficient fine tuning (PEFT) techniques, such as Low-Rank Adaptation (LoRA), promises an even more efficient solution, yet remains an unexplored area. In this work, we combine RAFT with LoRA to reduce fine tuning and storage requirements and gain faster inference times while maintaining comparable RAG performance. This results in a more compute-efficient RAFT, or CRAFT, which is particularly useful for knowledge-intensive QA tasks in resource-constrained environments where internet access may be restricted and hardware resources limited.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) は、質問応答(QA)タスクの精度と関連性を高めるために、外部知識を事前訓練された大規模言語モデル(LLM)に統合する一般的な方法である。
しかし、実世界のQAアプリケーションに最適で堅牢なRAGソリューションを開発する上で、迅速なエンジニアリングと資源効率は依然として重大なボトルネックとなっている。
近年の研究では、これらの問題に対処するために微調整を用いることが成功しており、特に、より小型の7Bモデルに適用されたRetrieval Augmented Fine Tuning(RAFT)は、GPT-3.5のようなはるかに大きなモデルを持つRAGセットアップよりも優れた性能を示している。
RAFTとLow-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整(PEFT)技術の組み合わせにより、より効率的な解が期待できるが、まだ探索されていない領域である。
本研究では,RAFTとLoRAを組み合わせることで,微調整とストレージの要求を低減し,RAG性能を同等に保ちつつ,推論時間を短縮する。
これにより、より計算効率のよいRAFT(CRAFT)が実現し、インターネットアクセスが制限され、ハードウェアリソースが制限されるリソース制約のある環境での知識集約型QAタスクに特に有用である。
関連論文リスト
- LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models [7.926974917872204]
LoRA-SPはランダム化半選択パラメータ凍結を利用した新しい手法である。
LoRA-SPは、モデル性能を損なうことなく、計算とメモリの要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T06:50:10Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - AutoLoRa: A Parameter-Free Automated Robust Fine-Tuning Framework [13.471022394534465]
Robust Fine-Tuning (RFT) は、ダウンストリームアプリケーションにおける対角的ロバスト性を得るための低コストな戦略である。
本稿では,特徴抽出器 (FE) による対向的目的と自然的目的の両方を最適化することで,異なる勾配方向を導出する既存の RFT の問題を明らかにする。
本稿では,RFT を LoRa 分岐による自然目標の最適化と FE による敵目標の2つの異なる成分に分解するローランク (LoRa) 分岐を提案する。
論文 参考訳(メタデータ) (2023-10-03T06:16:03Z) - REFT: Resource-Efficient Federated Training Framework for Heterogeneous
and Resource-Constrained Environments [2.117841684082203]
分散システムでは、フェデレートラーニング(FL)が重要な役割を果たす。
FLは、機械学習のプライバシ強化サブドメインとして出現する。
我々は「不均一・資源制約環境のための資源効率の良いフェデレーション・トレーニング・フレームワーク」を提案する。
論文 参考訳(メタデータ) (2023-08-25T20:33:30Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。