論文の概要: Budget-Constrained Online Retrieval-Augmented Generation: The Chunk-as-a-Service Model
- arxiv url: http://arxiv.org/abs/2604.26981v1
- Date: Tue, 28 Apr 2026 14:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.694081
- Title: Budget-Constrained Online Retrieval-Augmented Generation: The Chunk-as-a-Service Model
- Title(参考訳): Budget-Constrained Online Retrieval-Augmented Generation: The Chunk-as-a-Service Model
- Authors: Shawqi Al-Maliki, Ammar Gharaibeh, Mohamed Rahouti, Mohammad Ruhul Amin, Mohamed Abdallah, Junaid Qadir, Ala Al-Fuqaha,
- Abstract要約: Chunk-as-a-Service (C) は RAG-as-a-Service (R) に代わる透明で費用効果の高い代替品である
C には Open-Budget C (OB-C) と Limited-Budget C (LB-C) の2種類がある。
- 参考スコア(独自算出の注目度): 4.573553791705522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized the field of natural language processing. However, they exhibit some limitations, including a lack of reliability and transparency: they may hallucinate and fail to provide sources that support the generated output. Retrieval-Augmented Generation (RAG) was introduced to address such limitations in LLMs. One popular implementation, RAG-as-a-Service (RaaS), has shortcomings that hinder its adoption and accessibility. For instance, RaaS pricing is based on the number of submitted prompts, without considering whether the prompts are enriched by relevant chunks, i.e., text segments retrieved from a vector database, or the quality of the utilized chunks (i.e., their degree of relevance). This results in an opaque and less cost-effective payment model. We propose Chunk-as-a-Service (CaaS) as a transparent and cost-effective alternative. CaaS includes two variants: Open-Budget CaaS (OB-CaaS) and Limited-Budget CaaS (LB-CaaS), which is enabled by our ``Utility-Cost Online Selection Algorithm (UCOSA)''. UCOSA further extends the cost-effectiveness and the accessibility of the OB-CaaS variant by enriching, in an online manner, a subset of the submitted prompts based on budget constraints and utility-cost tradeoff. Our experiments demonstrate the efficacy of the proposed UCOSA compared to both offline and relevance-greedy selection baselines. In terms of the performance metric-the number of enriched prompts (NEP) multiplied by the Average Relevance (AR)-UCOSA outperforms random selection by approximately 52% and achieves around 75% of the performance of offline selection methods. Additionally, in terms of budget utilization, LB-CaaS and OB-CaaS achieve higher performance-to-budget ratios of 140% and 86%, respectively, compared to RaaS, indicating their superior efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
しかし、信頼性の欠如や透明性の欠如など、いくつかの制限がある。
LLMのそのような制限に対処するために、検索拡張生成(RAG)が導入された。
RaaS(RAG-as-a-Service)は、採用とアクセシビリティを妨げる欠点がある。
例えば、RaaSの価格設定は、送信されたプロンプトの数に基づいており、プロンプトが関連するチャンク、すなわちベクトルデータベースから取得されたテキストセグメント、あるいは使用済みチャンクの品質(すなわち、それらの関連性度)によって濃縮されているかどうかを考慮しない。
その結果、不透明で費用対効果の低い支払いモデルが生まれる。
透明で費用対効果の高い代替手段として、Chunk-as-a-Service(CaaS)を提案する。
CaaSには2つのバリエーションがある: Open-Budget CaaS (OB-CaaS) と Limited-Budget CaaS (LB-CaaS) 。
UCOSAはさらに、予算の制約とユーティリティコストのトレードオフに基づいて提出されたプロンプトのサブセットをオンライン的に強化することで、OB-CaaSのコスト効率とアクセシビリティをさらに拡張する。
本実験は, オフライン選択ベースラインと関連する選択ベースラインの両方と比較して, UCOSAの有効性を実証した。
Average Relevance (AR)-UCOSA が乗じるエンリッチドプロンプト(NEP)の数は、性能指標の観点で見ると、ランダム選択を約52%上回り、オフライン選択法の性能の約75%を達成している。
さらに, 予算利用の面では, LB-CaaS と OB-CaaS は, RaaS と比較して, それぞれ 140% と 86% の高パフォーマンス・予算比を達成し, その効率性を示している。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。
当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。
OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-05-24T01:05:37Z) - Efficient Prompt Optimization Through the Lens of Best Arm Identification [50.56113809171805]
この作業は、明示的な予算制約の下でプロンプト選択を効率的に行うための、原則化されたフレームワークであるTRIPLEを提供する。
マルチアームバンディット(MAB)における即時最適化と固定予算ベストアーム識別(BAI-FB)の間に確立された新しい接続上に構築されている。
論文 参考訳(メタデータ) (2024-02-15T05:31:13Z) - LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。
本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。
当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文 参考訳(メタデータ) (2022-01-29T13:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。