論文の概要: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- arxiv url: http://arxiv.org/abs/2308.04215v2
- Date: Mon, 5 Feb 2024 14:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:43:48.527813
- Title: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- Title(参考訳): リアルタイム合成支援のためのハイブリッド検索拡張生成
- Authors: Menglin Xia, Xuchao Zhang, Camille Couturier, Guoqing Zheng, Saravan
Rajmohan, Victor Ruhle
- Abstract要約: 本稿では,HybridRAG(HybridRAG)フレームワークを提案する。
クラウドベースの大規模言語モデルと、より小さなクライアントサイドの言語モデルとを効率的に組み合わせ、拡張メモリを検索する。
5つのベンチマークデータセットに対する実験により、HybridRAGは低レイテンシを維持しながら、クライアントのみのモデルよりも実用性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 19.011514931732904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval augmentation enhances performance of traditional language models by
incorporating additional context. However, the computational demands for
retrieval augmented large language models (LLMs) pose a challenge when applying
them to real-time tasks, such as composition assistance. To address this
limitation, we propose the Hybrid Retrieval-Augmented Generation (HybridRAG)
framework, a novel approach that efficiently combines a cloud-based LLM with a
smaller, client-side, language model through retrieval augmented memory. This
integration enables the client model to generate effective responses,
benefiting from the LLM's capabilities and contextual information.
Additionally, through an asynchronous memory update mechanism, the client model
can deliver real-time completions swiftly to user inputs without the need to
wait for responses from the cloud. Our experiments on five benchmark datasets
demonstrate that HybridRAG significantly improves utility over client-only
models while maintaining low latency.
- Abstract(参考訳): Retrieval Augmentationは、コンテキストを追加することによって、従来の言語モデルのパフォーマンスを向上させる。
しかし,拡張大言語モデル(LLM)の検索に対する計算要求は,合成支援などのリアルタイムタスクに適用する際の課題となっている。
この制限に対処するために,我々は,クラウドベースのllmを拡張メモリ検索により,より小さなクライアントサイド言語モデルと効率的に結合する新しい手法であるhybridrag(hybridrag)フレームワークを提案する。
この統合により、クライアントモデルはLLMの機能とコンテキスト情報を利用して効果的な応答を生成することができる。
さらに、非同期メモリ更新メカニズムにより、クライアントモデルはクラウドからの応答を待つことなく、ユーザの入力に素早くリアルタイムの完了を配信できる。
5つのベンチマークデータセットの実験により、HybridRAGは低レイテンシを維持しながら、クライアントのみのモデルよりも実用性を大幅に向上することを示した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Towards Client Driven Federated Learning [7.528642177161784]
私たちは、クライアントを駆動する新しいFLフレームワークであるクライアント駆動フェデレートラーニング(CDFL:Client-Driven Federated Learning)を紹介します。
CDFLでは、各クライアントは、ローカルにトレーニングされたモデルをサーバにアップロードし、ローカルタスクに合わせてカスタマイズされたモデルを受け取ることで、独立して非同期にモデルを更新する。
論文 参考訳(メタデータ) (2024-05-24T10:17:49Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Efficient Cloud-edge Collaborative Inference for Object
Re-identification [27.952445808987036]
我々は、ReIDシステムのためのクラウド-エッジ協調推論フレームワークを開拓した。
本稿では,クラウドサーバに所望の画像を返すために,分散対応相関モデルネットワーク(DaCM)を提案する。
DaCMは、タイムスタンプに暗黙的に含まれている空間的時間的相関関係をグラフ構造に埋め込んで、アップロードウィンドウのサイズを調整するためにクラウドに適用することができる。
論文 参考訳(メタデータ) (2024-01-04T02:56:50Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。