論文の概要: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- arxiv url: http://arxiv.org/abs/2308.04215v1
- Date: Tue, 8 Aug 2023 12:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:54:22.569755
- Title: Hybrid Retrieval-Augmented Generation for Real-time Composition
Assistance
- Title(参考訳): リアルタイム合成支援のためのハイブリッド検索拡張生成
- Authors: Xuchao Zhang, Menglin Xia, Camille Couturier, Guoqing Zheng, Saravan
Rajmohan, Victor Ruhle
- Abstract要約: HybridRAGはクラウド上の大規模言語モデルによって非同期に生成される検索拡張メモリを組み込んでいる。
Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現することが示された。
- 参考スコア(独自算出の注目度): 15.734318444982247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval augmented models show promise in enhancing traditional language
models by improving their contextual understanding, integrating private data,
and reducing hallucination. However, the processing time required for retrieval
augmented large language models poses a challenge when applying them to tasks
that require real-time responses, such as composition assistance.
To overcome this limitation, we propose the Hybrid Retrieval-Augmented
Generation (HybridRAG) framework that leverages a hybrid setting that combines
both client and cloud models. HybridRAG incorporates retrieval-augmented memory
generated asynchronously by a Large Language Model (LLM) in the cloud. By
integrating this retrieval augmented memory, the client model acquires the
capability to generate highly effective responses, benefiting from the LLM's
capabilities. Furthermore, through asynchronous memory integration, the client
model is capable of delivering real-time responses to user requests without the
need to wait for memory synchronization from the cloud. Our experiments on
Wikitext and Pile subsets show that HybridRAG achieves lower latency than a
cloud-based retrieval-augmented LLM, while outperforming client-only models in
utility.
- Abstract(参考訳): 検索拡張モデルは、文脈理解を改善し、プライベートデータを統合し、幻覚を減らすことで、伝統的な言語モデルの強化に役立つ。
しかし,大規模言語モデルの検索に要する処理時間は,合成支援などのリアルタイム応答を必要とするタスクに適用する際の課題となっている。
この制限を克服するために,クライアントモデルとクラウドモデルを組み合わせたハイブリッド設定を利用するハイブリッド検索拡張生成(HybridRAG)フレームワークを提案する。
HybridRAGはクラウド上でLLM(Large Language Model)によって非同期に生成される検索拡張メモリを組み込んでいる。
この検索強化メモリを統合することで、クライアントモデルはLLMの能力を利用して、非常に効果的な応答を生成する能力を得る。
さらに、非同期メモリの統合により、クライアントモデルはクラウドからのメモリ同期を待つことなく、ユーザの要求に対してリアルタイムにレスポンスを提供することができる。
Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現し,クライアントのみのモデルよりも実用性が高いことがわかった。
関連論文リスト
- RL-based Query Rewriting with Distilled LLM for online E-Commerce Systems [19.674493253615235]
効率と効率のバランスをとる新しいQR用ハイブリッドパイプラインを提案する。
オンライン強化学習(RL)を用いて,オフラインの知識蒸留を併用し,リアルタイムフィードバックを用いて動的にクエリ書き換えを行う。
Amazon ESCIデータセットの実験結果は、クエリ関連性、多様性、適応性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-01-29T23:41:12Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production [5.030384831047144]
本稿では、実際の開発者インタラクションを忠実に模倣する合成トレーニングデータを生成する自動化ツールであるDialogAgentを紹介する。
このツールは手動データ生成への依存を著しく低減し、従来の方法に比べて効率を4.8倍に向上させる。
論文 参考訳(メタデータ) (2024-12-11T03:31:36Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。