Fugu-MT 論文翻訳(概要): Hybrid Retrieval-Augmented Generation for Real-time Composition Assistance

論文の概要: Hybrid Retrieval-Augmented Generation for Real-time Composition Assistance

arxiv url: http://arxiv.org/abs/2308.04215v1
Date: Tue, 8 Aug 2023 12:27:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 12:54:22.569755
Title: Hybrid Retrieval-Augmented Generation for Real-time Composition Assistance
Title（参考訳）: リアルタイム合成支援のためのハイブリッド検索拡張生成
Authors: Xuchao Zhang, Menglin Xia, Camille Couturier, Guoqing Zheng, Saravan Rajmohan, Victor Ruhle
Abstract要約: HybridRAGはクラウド上の大規模言語モデルによって非同期に生成される検索拡張メモリを組み込んでいる。 Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現することが示された。
参考スコア（独自算出の注目度）: 15.734318444982247
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Retrieval augmented models show promise in enhancing traditional language models by improving their contextual understanding, integrating private data, and reducing hallucination. However, the processing time required for retrieval augmented large language models poses a challenge when applying them to tasks that require real-time responses, such as composition assistance. To overcome this limitation, we propose the Hybrid Retrieval-Augmented Generation (HybridRAG) framework that leverages a hybrid setting that combines both client and cloud models. HybridRAG incorporates retrieval-augmented memory generated asynchronously by a Large Language Model (LLM) in the cloud. By integrating this retrieval augmented memory, the client model acquires the capability to generate highly effective responses, benefiting from the LLM's capabilities. Furthermore, through asynchronous memory integration, the client model is capable of delivering real-time responses to user requests without the need to wait for memory synchronization from the cloud. Our experiments on Wikitext and Pile subsets show that HybridRAG achieves lower latency than a cloud-based retrieval-augmented LLM, while outperforming client-only models in utility.
Abstract（参考訳）: 検索拡張モデルは、文脈理解を改善し、プライベートデータを統合し、幻覚を減らすことで、伝統的な言語モデルの強化に役立つ。しかし,大規模言語モデルの検索に要する処理時間は,合成支援などのリアルタイム応答を必要とするタスクに適用する際の課題となっている。この制限を克服するために,クライアントモデルとクラウドモデルを組み合わせたハイブリッド設定を利用するハイブリッド検索拡張生成(HybridRAG)フレームワークを提案する。 HybridRAGはクラウド上でLLM(Large Language Model)によって非同期に生成される検索拡張メモリを組み込んでいる。この検索強化メモリを統合することで、クライアントモデルはLLMの能力を利用して、非常に効果的な応答を生成する能力を得る。さらに、非同期メモリの統合により、クライアントモデルはクラウドからのメモリ同期を待つことなく、ユーザの要求に対してリアルタイムにレスポンスを提供することができる。 Wikitext と Pile のサブセットを用いた実験により,HybridRAG はクラウドベースの検索拡張 LLM よりも低レイテンシを実現し,クライアントのみのモデルよりも実用性が高いことがわかった。

関連論文リスト

LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models [11.012474205717178]
大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。本稿では,文脈要約を保存・再利用するためのセマンティックキャッシング手法を提案する。本手法は,全文書処理に匹敵する解の精度を維持しつつ,冗長計算を最大50～60%削減する。
論文参考訳（メタデータ） (2025-05-16T14:04:31Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Advanced Relay-Based Collaborative Framework for Optimizing Synchronization in Split Federated Learning over Wireless Networks [4.235050593084289]
Split Federated Learning (SFL)はエッジコンピューティングにおける分散モデルトレーニングに有望なアプローチを提供する。本研究では,ユーザの同期効率を最適化する協調SFLフレームワークを提案する。提案するCSFLフレームワークは同期遅延を低減し,システム全体のスループットを向上させる。
論文参考訳（メタデータ） (2025-03-18T22:11:54Z)
Cross-Format Retrieval-Augmented Generation in XR with LLMs for Context-Aware Maintenance Assistance [6.16808916207942]
本稿では,大規模言語モデル(LLM)を統合した検索拡張生成システムの詳細な評価を行う。 BLEU と METEOR のスコアを用いて,応答速度や精度などの重要な指標を定量化する8つの LLM の性能評価を行った。その結果、システムがタイムリーかつ正確なレスポンスを提供する能力を評価し、メンテナンス操作を最適化するRAGフレームワークの可能性を強調した。
論文参考訳（メタデータ） (2025-02-21T17:19:39Z)
A Hybrid Swarm Intelligence Approach for Optimizing Multimodal Large Language Models Deployment in Edge-Cloud-based Federated Learning Environments [10.72166883797356]
Federated Learning (FL)、Multimodal Large Language Models (MLLM)、エッジ・クラウド・コンピューティングは分散およびリアルタイムのデータ処理を可能にする。そこで本研究では,MLLMを十分なリソースとバッテリ寿命を備えたエッジデバイスにデプロイするハイブリッドフレームワークを提案する。実験の結果,提案手法はシステム性能を大幅に向上し,92%の精度を実現し,通信コストを30%削減し,クライアントの参加性を高めた。
論文参考訳（メタデータ） (2025-02-04T03:03:24Z)
RL-based Query Rewriting with Distilled LLM for online E-Commerce Systems [19.674493253615235]
効率と効率のバランスをとる新しいQR用ハイブリッドパイプラインを提案する。オンライン強化学習(RL)を用いて,オフラインの知識蒸留を併用し,リアルタイムフィードバックを用いて動的にクエリ書き換えを行う。 Amazon ESCIデータセットの実験結果は、クエリ関連性、多様性、適応性を大幅に改善したことを示している。
論文参考訳（メタデータ） (2025-01-29T23:41:12Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文参考訳（メタデータ） (2024-10-11T18:16:03Z)
Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。 4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。 SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文参考訳（メタデータ） (2024-10-09T14:57:31Z)
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文参考訳（メタデータ） (2024-06-22T03:20:10Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Towards Client Driven Federated Learning [7.528642177161784]
私たちは、クライアントを駆動する新しいFLフレームワークであるクライアント駆動フェデレートラーニング(CDFL:Client-Driven Federated Learning)を紹介します。 CDFLでは、各クライアントは、ローカルにトレーニングされたモデルをサーバにアップロードし、ローカルタスクに合わせてカスタマイズされたモデルを受け取ることで、独立して非同期にモデルを更新する。
論文参考訳（メタデータ） (2024-05-24T10:17:49Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
Efficient Cloud-edge Collaborative Inference for Object Re-identification [27.952445808987036]
我々は、ReIDシステムのためのクラウド-エッジ協調推論フレームワークを開拓した。本稿では,クラウドサーバに所望の画像を返すために,分散対応相関モデルネットワーク(DaCM)を提案する。 DaCMは、タイムスタンプに暗黙的に含まれている空間的時間的相関関係をグラフ構造に埋め込んで、アップロードウィンドウのサイズを調整するためにクラウドに適用することができる。
論文参考訳（メタデータ） (2024-01-04T02:56:50Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文参考訳（メタデータ） (2022-09-12T13:26:26Z)
Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。 AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文参考訳（メタデータ） (2021-06-09T19:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。