論文の概要: NinjaLLM: Fast, Scalable and Cost-effective RAG using Amazon SageMaker and AWS Trainium and Inferentia2
- arxiv url: http://arxiv.org/abs/2407.12057v1
- Date: Thu, 11 Jul 2024 05:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 21:28:12.169001
- Title: NinjaLLM: Fast, Scalable and Cost-effective RAG using Amazon SageMaker and AWS Trainium and Inferentia2
- Title(参考訳): NinjaLLM: Amazon SageMakerとAWS TrainiumとInferentia2を使用した高速でスケーラブルで費用対効果の高いRAG
- Authors: Tengfei Xue, Xuefeng Li, Roman Smirnov, Tahir Azim, Arash Sadrieh, Babak Pahlavan,
- Abstract要約: 本稿では,従来のRAG技術の改良について述べる。
私たちは、SageMakerを介してAWS TrainiumとInferentia2 AIチップに微調整され、ホストされる、大規模言語モデル(LLM)に焦点を当てています。
我々はRAGシステムの性能をNatural QuestionsとHotPotQAデータセットでベンチマークし、それぞれ62%と59%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.9980199776038812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) techniques are widely used today to retrieve and present information in a conversational format. This paper presents a set of enhancements to traditional RAG techniques, focusing on large language models (LLMs) fine-tuned and hosted on AWS Trainium and Inferentia2 AI chips via SageMaker. These chips are characterized by their elasticity, affordability, and efficient performance for AI compute tasks. Besides enabling deployment on these chips, this work aims to improve tool usage, add citation capabilities, and mitigate the risks of hallucinations and unsafe responses due to context bias. We benchmark our RAG system's performance on the Natural Questions and HotPotQA datasets, achieving an accuracy of 62% and 59% respectively, exceeding other models such as DBRX and Mixtral Instruct.
- Abstract(参考訳): 検索拡張生成(RAG)技術は、現在、会話形式で情報を検索し提示するために広く使われている。
本稿では,AWS TrainiumとInferentia2のAIチップをSageMaker経由でホストする大規模言語モデル(LLM)に焦点を当て,従来のRAG技術の一連の拡張について述べる。
これらのチップは、その弾力性、手頃さ、AI計算タスクの効率的なパフォーマンスによって特徴付けられる。
この作業は、これらのチップへのデプロイを可能にすることに加えて、ツールの使用方法の改善、引用機能の追加、およびコンテキストバイアスによる幻覚や安全でない応答のリスクを軽減することを目的としている。
我々はRAGシステムの性能をNatural QuestionsとHotPotQAデータセットでベンチマークし、それぞれ62%と59%の精度を達成し、DBRXやMixtral Instructといった他のモデルを上回った。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文 参考訳(メタデータ) (2024-09-25T09:50:51Z) - RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation [30.797422827190278]
本稿ではロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。
RoSAは、固定された事前トレーニングされた重みのセットの上に、$textitlow-rank$と$textithighly-sparse$コンポーネントをトレーニングする。
また,RoSAがLoRA,純スパース微調整,代替ハイブリット法を同じパラメータ予算で上回ることを示す。
論文 参考訳(メタデータ) (2024-01-09T17:09:01Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Augmenting Pre-trained Language Models with QA-Memory for Open-Domain
Question Answering [38.071375112873675]
質問応答型エンコーダデコーダモデルの提案と事前学習戦略について述べる。
これにより、シングルホップのQAタスクにおいて、以前のQA検索方法よりも優れたエンドツーエンドシステムが得られる。
論文 参考訳(メタデータ) (2022-04-10T02:33:00Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Zero-shot Slot Filling with DPR and RAG [10.577238010892287]
与えられた文書コレクションから知識グラフ(KG)を自動的に抽出する能力は、人工知能の長年の問題である。
この分野の最近の進歩は、検索ベースの言語モデルを用いて、エンドツーエンドの方法でこの課題を解決しようとする。
本稿では,より優れたスロットフィラーを実現するために,ragのレトリバーとジェネレータを改善するためのいくつかの戦略について述べる。
論文 参考訳(メタデータ) (2021-04-17T18:24:51Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。