論文の概要: SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context
- arxiv url: http://arxiv.org/abs/2505.23841v1
- Date: Wed, 28 May 2025 14:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.558788
- Title: SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context
- Title(参考訳): SkewRoute: 検索コンテキストのスコアスキューネスによる知識グラフ検索拡張生成のための学習不要LLMルーティング
- Authors: Hairu Wang, Yuan Feng, Yukun Cao, Xike Xie, S Kevin Zhou,
- Abstract要約: 大規模な言語モデルは多くのタスクで優れていますが、デプロイ時に高い推論コストがかかります。
性能とコストのバランスをとるための有望な解決策はLLMルーティングであり、より小さなLLMと複雑なLLMに単純なクエリを誘導する。
そこで我々は,KG-RAGに最適化された新しい学習不要なルーティングフレームワークを提案し,プラグアンドプレイ方式で性能とコストを効果的にバランスさせる。
- 参考スコア(独自算出の注目度): 19.447729423696096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel at many tasks but often incur high inference costs during deployment. To mitigate hallucination, many systems use a knowledge graph to enhance retrieval-augmented generation (KG-RAG). However, the large amount of retrieved knowledge contexts increase these inference costs further. A promising solution to balance performance and cost is LLM routing, which directs simple queries to smaller LLMs and complex ones to larger LLMs. However, no dedicated routing methods currently exist for RAG, and existing training-based routers face challenges scaling to this domain due to the need for extensive training data. We observe that the score distributions produced by the retrieval scorer strongly correlate with query difficulty. Based on this, we propose a novel, training-free routing framework, the first tailored to KG-RAG that effectively balances performance and cost in a plug-and-play manner. Experiments show our method reduces calls to larger LLMs by up to 50% without sacrificing response quality, demonstrating its potential for efficient and scalable LLM deployment.
- Abstract(参考訳): 大規模な言語モデルは多くのタスクで優れていますが、デプロイ時に高い推論コストがかかります。
幻覚を緩和するために、多くのシステムは知識グラフを使用して検索増強世代(KG-RAG)を強化する。
しかし、検索された知識コンテキストの多さは、これらの推論コストをさらに高めている。
性能とコストのバランスをとるための有望な解決策はLLMルーティングであり、より小さなLLMと複雑なLLMに単純なクエリを誘導する。
しかしながら、RAG専用のルーティング手法は存在せず、既存のトレーニングベースのルータは、広範なトレーニングデータを必要とするため、この領域へのスケーリングに直面する。
検索スコアラが生成したスコア分布はクエリの難易度と強く相関している。
そこで本研究では,KG-RAGに最適化された新しい学習自由ルーティングフレームワークを提案する。
提案手法は, 応答品質を犠牲にすることなく, 最大50%のLLM呼び出しを削減し, 効率よく, スケーラブルなLLMデプロイメントの可能性を示す。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。