論文の概要: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- arxiv url: http://arxiv.org/abs/2308.04215v1
- Date: Tue, 8 Aug 2023 12:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:54:22.569755
- Title: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- Title(参考訳): リアルタイム合成支援のためのハイブリッド検索拡張生成
- Authors: Xuchao Zhang, Menglin Xia, Camille Couturier, Guoqing Zheng, Saravan
Rajmohan, Victor Ruhle
- Abstract要約: HybridRAGはクラウド上の大規模言語モデルによって非同期に生成される検索拡張メモリを組み込んでいる。
Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現することが示された。
- 参考スコア(独自算出の注目度): 15.734318444982247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval augmented models show promise in enhancing traditional language
models by improving their contextual understanding, integrating private data,
and reducing hallucination. However, the processing time required for retrieval
augmented large language models poses a challenge when applying them to tasks
that require real-time responses, such as composition assistance.
To overcome this limitation, we propose the Hybrid Retrieval-Augmented
Generation (HybridRAG) framework that leverages a hybrid setting that combines
both client and cloud models. HybridRAG incorporates retrieval-augmented memory
generated asynchronously by a Large Language Model (LLM) in the cloud. By
integrating this retrieval augmented memory, the client model acquires the
capability to generate highly effective responses, benefiting from the LLM's
capabilities. Furthermore, through asynchronous memory integration, the client
model is capable of delivering real-time responses to user requests without the
need to wait for memory synchronization from the cloud. Our experiments on
Wikitext and Pile subsets show that HybridRAG achieves lower latency than a
cloud-based retrieval-augmented LLM, while outperforming client-only models in
utility.
- Abstract(参考訳): 検索拡張モデルは、文脈理解を改善し、プライベートデータを統合し、幻覚を減らすことで、伝統的な言語モデルの強化に役立つ。
しかし,大規模言語モデルの検索に要する処理時間は,合成支援などのリアルタイム応答を必要とするタスクに適用する際の課題となっている。
この制限を克服するために,クライアントモデルとクラウドモデルを組み合わせたハイブリッド設定を利用するハイブリッド検索拡張生成(HybridRAG)フレームワークを提案する。
HybridRAGはクラウド上でLLM(Large Language Model)によって非同期に生成される検索拡張メモリを組み込んでいる。
この検索強化メモリを統合することで、クライアントモデルはLLMの能力を利用して、非常に効果的な応答を生成する能力を得る。
さらに、非同期メモリの統合により、クライアントモデルはクラウドからのメモリ同期を待つことなく、ユーザの要求に対してリアルタイムにレスポンスを提供することができる。
Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現し,クライアントのみのモデルよりも実用性が高いことがわかった。
関連論文リスト
- CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models [3.2186308082558623]
厳密にキュレートされた高品質データセットに基づいてトレーニングされたTinyAgentモデルを紹介する。
また,言語エージェントの能力向上を目的とした革新的システムであるCMAT(Collaborative Multi-Agent Tuning)フレームワークを提案する。
本研究では,マルチエージェントシステムと環境フィードバック機構を統合した新しいコミュニケーションエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T06:07:35Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
我々はジェネレーティブモデル(Gen-RecSys)を用いてレコメンデーションシステムにおける重要な進歩を結びつけることを目指している。
我々の総合的な視点は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調できる。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [57.03374531297098]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - HiFlash: Communication-Efficient Hierarchical Federated Learning with
Adaptive Staleness Control and Heterogeneity-aware Client-Edge Association [38.99309610943313]
フェデレートラーニング(FL)は、巨大なクライアント間で共有モデルを協調的に学習することのできる、有望なパラダイムである。
多くの既存のFLシステムでは、クライアントは大規模なデータサイズのモデルパラメータを、ワイドエリアネットワーク(WAN)を介してリモートクラウドサーバと頻繁に交換する必要がある。
我々は、モバイルエッジコンピューティングの利点を享受するHiFLの階層的フェデレーション学習パラダイムを活用している。
論文 参考訳(メタデータ) (2023-01-16T14:39:04Z) - FedNet2Net: Saving Communication and Computations in Federated Learning
with Model Growing [0.0]
フェデレート・ラーニング(Federated Learning, FL)は、最近開発された機械学習の分野である。
本稿では「モデル成長」の概念に基づく新しいスキームを提案する。
提案手法は3つの標準ベンチマークで広範囲に検証され、通信とクライアントの計算の大幅な削減を実現することが示されている。
論文 参考訳(メタデータ) (2022-07-19T21:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。