論文の概要: Guarded Query Routing for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14524v1
- Date: Tue, 20 May 2025 15:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.537859
- Title: Guarded Query Routing for Large Language Models
- Title(参考訳): 大規模言語モデルのためのガード付きクエリルーティング
- Authors: Richard Šléher, William Brach, Tibor Sloboda, Kristián Košťál, Lukas Galke,
- Abstract要約: 本稿では,まずGQR-Bench(Guarded Query Routing Benchmark)を提案する。
その結果,ドメイン外検出能力が向上したWideMLPでは,精度(88%)と速度(4ms)のトレードオフが最良であることがわかった。
埋め込みベースのfastTextは、許容精度(80%)で速度(1ms)を上回り、LSMは高い精度(91%)を得るが、比較的遅い(ローカルなLlama-3.1:8Bと699では62ms)。
- 参考スコア(独自算出の注目度): 3.1457219084519004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query routing, the task to route user queries to different large language model (LLM) endpoints, can be considered as a text classification problem. However, out-of-distribution queries must be handled properly, as those could be questions about unrelated domains, queries in other languages, or even contain unsafe text. Here, we thus study a \emph{guarded} query routing problem, for which we first introduce the Guarded Query Routing Benchmark (GQR-Bench), which covers three exemplary target domains (law, finance, and healthcare), and seven datasets to test robustness against out-of-distribution queries. We then use GQR-Bench to contrast the effectiveness and efficiency of LLM-based routing mechanisms (GPT-4o-mini, Llama-3.2-3B, and Llama-3.1-8B), standard LLM-based guardrail approaches (LlamaGuard and NVIDIA NeMo Guardrails), continuous bag-of-words classifiers (WideMLP, fastText), and traditional machine learning models (SVM, XGBoost). Our results show that WideMLP, enhanced with out-of-domain detection capabilities, yields the best trade-off between accuracy (88\%) and speed (<4ms). The embedding-based fastText excels at speed (<1ms) with acceptable accuracy (80\%), whereas LLMs yield the highest accuracy (91\%) but are comparatively slow (62ms for local Llama-3.1:8B and 669ms for remote GPT-4o-mini calls). Our findings challenge the automatic reliance on LLMs for (guarded) query routing and provide concrete recommendations for practical applications. GQR-Bench will be released as a Python package -- \texttt{gqr}.
- Abstract(参考訳): クエリルーティングは、ユーザクエリを異なる大きな言語モデル(LLM)エンドポイントにルーティングするタスクであり、テキスト分類の問題とみなすことができる。
しかし、アウト・オブ・ディストリビューションのクエリは、関係のないドメイン、他の言語のクエリ、さらには安全でないテキストを含むような問題である可能性があるため、適切に処理されなければならない。
そこで我々は,まずGQR-Bench(Guarded Query Routing Benchmark,GQR-Bench)という,3つの模範的対象ドメイン(法則,財務,医療)と7つのデータセットを対象とし,アウト・オブ・ディストリビューションクエリに対してロバスト性をテストする。
次に、GQR-Benchを用いて、LLMベースのルーティング機構(GPT-4o-mini、Llama-3.2-3B、Llama-3.1-8B)、標準LLMベースのガードレールアプローチ(LlamaGuard、NVIDIA NeMo Guardrails)、連続バッグ・オブ・ワード分類器(WideMLP、fastText)、従来の機械学習モデル(SVM、XGBoost)の有効性と効率を比較検討する。
その結果,ドメイン外検出機能に強化されたワイドMLPは,精度(88\%)と速度(4ms)の最良のトレードオフをもたらすことがわかった。
埋め込みベースの fastText は、許容精度 (80\%) で速度 (<1ms) を上回り、LSM は高い精度 (91\%) を得るが、比較的遅い (ローカルの Llama-3.1:8B では62ms、リモートの GPT-4o-mini コールでは 669ms)。
本研究は,LLMを(保護された)クエリルーティングに自動的に依存させることに挑戦し,実用的なアプリケーションに具体的なレコメンデーションを提供する。
GQR-BenchはPythonパッケージ -- \texttt{gqr} としてリリースされる。
関連論文リスト
- Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - QuickLLaMA: Query-aware Inference Acceleration for Large Language Models [94.82978039567236]
大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。
Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。
特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
論文 参考訳(メタデータ) (2024-06-11T17:55:03Z) - Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments [40.95811668230818]
本稿では,構造化環境に対する効率的な推論を行うために,Reasoning-Path-Editing (Readi)を提案する。
Readiはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。
3つのKGQAデータセットと2つのTableQAデータセットの実験結果から、Readiの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T14:59:07Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。