論文の概要: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- arxiv url: http://arxiv.org/abs/2308.04215v1
- Date: Tue, 8 Aug 2023 12:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:54:22.569755
- Title: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- Title(参考訳): リアルタイム合成支援のためのハイブリッド検索拡張生成
- Authors: Xuchao Zhang, Menglin Xia, Camille Couturier, Guoqing Zheng, Saravan
Rajmohan, Victor Ruhle
- Abstract要約: HybridRAGはクラウド上の大規模言語モデルによって非同期に生成される検索拡張メモリを組み込んでいる。
Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現することが示された。
- 参考スコア(独自算出の注目度): 15.734318444982247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval augmented models show promise in enhancing traditional language
models by improving their contextual understanding, integrating private data,
and reducing hallucination. However, the processing time required for retrieval
augmented large language models poses a challenge when applying them to tasks
that require real-time responses, such as composition assistance.
To overcome this limitation, we propose the Hybrid Retrieval-Augmented
Generation (HybridRAG) framework that leverages a hybrid setting that combines
both client and cloud models. HybridRAG incorporates retrieval-augmented memory
generated asynchronously by a Large Language Model (LLM) in the cloud. By
integrating this retrieval augmented memory, the client model acquires the
capability to generate highly effective responses, benefiting from the LLM's
capabilities. Furthermore, through asynchronous memory integration, the client
model is capable of delivering real-time responses to user requests without the
need to wait for memory synchronization from the cloud. Our experiments on
Wikitext and Pile subsets show that HybridRAG achieves lower latency than a
cloud-based retrieval-augmented LLM, while outperforming client-only models in
utility.
- Abstract(参考訳): 検索拡張モデルは、文脈理解を改善し、プライベートデータを統合し、幻覚を減らすことで、伝統的な言語モデルの強化に役立つ。
しかし,大規模言語モデルの検索に要する処理時間は,合成支援などのリアルタイム応答を必要とするタスクに適用する際の課題となっている。
この制限を克服するために,クライアントモデルとクラウドモデルを組み合わせたハイブリッド設定を利用するハイブリッド検索拡張生成(HybridRAG)フレームワークを提案する。
HybridRAGはクラウド上でLLM(Large Language Model)によって非同期に生成される検索拡張メモリを組み込んでいる。
この検索強化メモリを統合することで、クライアントモデルはLLMの能力を利用して、非常に効果的な応答を生成する能力を得る。
さらに、非同期メモリの統合により、クライアントモデルはクラウドからのメモリ同期を待つことなく、ユーザの要求に対してリアルタイムにレスポンスを提供することができる。
Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現し,クライアントのみのモデルよりも実用性が高いことがわかった。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Towards Client Driven Federated Learning [7.528642177161784]
私たちは、クライアントを駆動する新しいFLフレームワークであるクライアント駆動フェデレートラーニング(CDFL:Client-Driven Federated Learning)を紹介します。
CDFLでは、各クライアントは、ローカルにトレーニングされたモデルをサーバにアップロードし、ローカルタスクに合わせてカスタマイズされたモデルを受け取ることで、独立して非同期にモデルを更新する。
論文 参考訳(メタデータ) (2024-05-24T10:17:49Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Efficient Cloud-edge Collaborative Inference for Object
Re-identification [27.952445808987036]
我々は、ReIDシステムのためのクラウド-エッジ協調推論フレームワークを開拓した。
本稿では,クラウドサーバに所望の画像を返すために,分散対応相関モデルネットワーク(DaCM)を提案する。
DaCMは、タイムスタンプに暗黙的に含まれている空間的時間的相関関係をグラフ構造に埋め込んで、アップロードウィンドウのサイズを調整するためにクラウドに適用することができる。
論文 参考訳(メタデータ) (2024-01-04T02:56:50Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。