論文の概要: Hybrid-RACA: Hybrid Retrieval-Augmented Composition Assistance for Real-time Text Prediction
- arxiv url: http://arxiv.org/abs/2308.04215v3
- Date: Sat, 12 Oct 2024 12:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:15.340660
- Title: Hybrid-RACA: Hybrid Retrieval-Augmented Composition Assistance for Real-time Text Prediction
- Title(参考訳): ハイブリッドRACA:リアルタイムテキスト予測のためのハイブリッド検索型合成支援
- Authors: Menglin Xia, Xuchao Zhang, Camille Couturier, Guoqing Zheng, Saravan Rajmohan, Victor Ruhle,
- Abstract要約: リアルタイムテキスト予測のためのハイブリッド検索合成支援(Hybrid-RACA)を提案する。
クラウドベースの大規模言語モデルと、拡張メモリを検索することで、より小さなクライアントサイドモデルとを効率的に組み合わせる。
5つのデータセットに対する実験により、Hybrid-RACAは低レイテンシを維持しながら高いパフォーマンスを提供することを示した。
- 参考スコア(独自算出の注目度): 17.94189417448127
- License:
- Abstract: Large language models (LLMs) enhanced with retrieval augmentation has shown great performance in many applications. However, the computational demands for these models pose a challenge when applying them to real-time tasks, such as composition assistance. To address this, we propose Hybrid Retrieval-Augmented Composition Assistance (Hybrid-RACA), a novel system for real-time text prediction that efficiently combines a cloud-based LLM with a smaller client-side model through retrieval augmented memory. This integration enables the client model to generate better responses, benefiting from the LLM's capabilities and cloud-based data. Meanwhile, via a novel asynchronous memory update mechanism, the client model can deliver real-time completions to user inputs without the need to wait for responses from the cloud. Our experiments on five datasets demonstrate that Hybrid-RACA offers strong performance while maintaining low latency.
- Abstract(参考訳): 大規模言語モデル (LLM) は検索拡張によって拡張され,多くのアプリケーションで性能が向上した。
しかし、これらのモデルに対する計算要求は、合成支援などのリアルタイムタスクに適用する際の課題となる。
これを解決するために,クラウドベースのLCMとより小さなクライアント側モデルとを効率的に組み合わせたリアルタイムテキスト予測システムであるHybrid-RACA(Hybrid-RACA)を提案する。
この統合により、クライアントモデルは、LCMの能力とクラウドベースのデータから恩恵を受けながら、より良いレスポンスを生成できる。
一方、新しい非同期メモリ更新メカニズムにより、クライアントモデルはクラウドからの応答を待つことなく、ユーザの入力にリアルタイムの補完を提供することができる。
5つのデータセットに対する実験により、Hybrid-RACAは低レイテンシを維持しながら高いパフォーマンスを提供することを示した。
関連論文リスト
- RL-based Query Rewriting with Distilled LLM for online E-Commerce Systems [19.674493253615235]
効率と効率のバランスをとる新しいQR用ハイブリッドパイプラインを提案する。
オンライン強化学習(RL)を用いて,オフラインの知識蒸留を併用し,リアルタイムフィードバックを用いて動的にクエリ書き換えを行う。
Amazon ESCIデータセットの実験結果は、クエリ関連性、多様性、適応性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-01-29T23:41:12Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production [5.030384831047144]
本稿では、実際の開発者インタラクションを忠実に模倣する合成トレーニングデータを生成する自動化ツールであるDialogAgentを紹介する。
このツールは手動データ生成への依存を著しく低減し、従来の方法に比べて効率を4.8倍に向上させる。
論文 参考訳(メタデータ) (2024-12-11T03:31:36Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。