論文の概要: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- arxiv url: http://arxiv.org/abs/2308.04215v2
- Date: Mon, 5 Feb 2024 14:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:43:48.527813
- Title: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- Title(参考訳): リアルタイム合成支援のためのハイブリッド検索拡張生成
- Authors: Menglin Xia, Xuchao Zhang, Camille Couturier, Guoqing Zheng, Saravan
Rajmohan, Victor Ruhle
- Abstract要約: 本稿では,HybridRAG(HybridRAG)フレームワークを提案する。
クラウドベースの大規模言語モデルと、より小さなクライアントサイドの言語モデルとを効率的に組み合わせ、拡張メモリを検索する。
5つのベンチマークデータセットに対する実験により、HybridRAGは低レイテンシを維持しながら、クライアントのみのモデルよりも実用性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 19.011514931732904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval augmentation enhances performance of traditional language models by
incorporating additional context. However, the computational demands for
retrieval augmented large language models (LLMs) pose a challenge when applying
them to real-time tasks, such as composition assistance. To address this
limitation, we propose the Hybrid Retrieval-Augmented Generation (HybridRAG)
framework, a novel approach that efficiently combines a cloud-based LLM with a
smaller, client-side, language model through retrieval augmented memory. This
integration enables the client model to generate effective responses,
benefiting from the LLM's capabilities and contextual information.
Additionally, through an asynchronous memory update mechanism, the client model
can deliver real-time completions swiftly to user inputs without the need to
wait for responses from the cloud. Our experiments on five benchmark datasets
demonstrate that HybridRAG significantly improves utility over client-only
models while maintaining low latency.
- Abstract(参考訳): Retrieval Augmentationは、コンテキストを追加することによって、従来の言語モデルのパフォーマンスを向上させる。
しかし,拡張大言語モデル(LLM)の検索に対する計算要求は,合成支援などのリアルタイムタスクに適用する際の課題となっている。
この制限に対処するために,我々は,クラウドベースのllmを拡張メモリ検索により,より小さなクライアントサイド言語モデルと効率的に結合する新しい手法であるhybridrag(hybridrag)フレームワークを提案する。
この統合により、クライアントモデルはLLMの機能とコンテキスト情報を利用して効果的な応答を生成することができる。
さらに、非同期メモリ更新メカニズムにより、クライアントモデルはクラウドからの応答を待つことなく、ユーザの入力に素早くリアルタイムの完了を配信できる。
5つのベンチマークデータセットの実験により、HybridRAGは低レイテンシを維持しながら、クライアントのみのモデルよりも実用性を大幅に向上することを示した。
関連論文リスト
- CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models [3.2186308082558623]
厳密にキュレートされた高品質データセットに基づいてトレーニングされたTinyAgentモデルを紹介する。
また,言語エージェントの能力向上を目的とした革新的システムであるCMAT(Collaborative Multi-Agent Tuning)フレームワークを提案する。
本研究では,マルチエージェントシステムと環境フィードバック機構を統合した新しいコミュニケーションエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T06:07:35Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
我々はジェネレーティブモデル(Gen-RecSys)を用いてレコメンデーションシステムにおける重要な進歩を結びつけることを目指している。
我々の総合的な視点は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調できる。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [57.03374531297098]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - HiFlash: Communication-Efficient Hierarchical Federated Learning with
Adaptive Staleness Control and Heterogeneity-aware Client-Edge Association [38.99309610943313]
フェデレートラーニング(FL)は、巨大なクライアント間で共有モデルを協調的に学習することのできる、有望なパラダイムである。
多くの既存のFLシステムでは、クライアントは大規模なデータサイズのモデルパラメータを、ワイドエリアネットワーク(WAN)を介してリモートクラウドサーバと頻繁に交換する必要がある。
我々は、モバイルエッジコンピューティングの利点を享受するHiFLの階層的フェデレーション学習パラダイムを活用している。
論文 参考訳(メタデータ) (2023-01-16T14:39:04Z) - FedNet2Net: Saving Communication and Computations in Federated Learning
with Model Growing [0.0]
フェデレート・ラーニング(Federated Learning, FL)は、最近開発された機械学習の分野である。
本稿では「モデル成長」の概念に基づく新しいスキームを提案する。
提案手法は3つの標準ベンチマークで広範囲に検証され、通信とクライアントの計算の大幅な削減を実現することが示されている。
論文 参考訳(メタデータ) (2022-07-19T21:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。