論文の概要: Guarded Query Routing for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14524v1
- Date: Tue, 20 May 2025 15:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.537859
- Title: Guarded Query Routing for Large Language Models
- Title(参考訳): 大規模言語モデルのためのガード付きクエリルーティング
- Authors: Richard Šléher, William Brach, Tibor Sloboda, Kristián Košťál, Lukas Galke,
- Abstract要約: 本稿では,まずGQR-Bench(Guarded Query Routing Benchmark)を提案する。
その結果,ドメイン外検出能力が向上したWideMLPでは,精度(88%)と速度(4ms)のトレードオフが最良であることがわかった。
埋め込みベースのfastTextは、許容精度(80%)で速度(1ms)を上回り、LSMは高い精度(91%)を得るが、比較的遅い(ローカルなLlama-3.1:8Bと699では62ms)。
- 参考スコア(独自算出の注目度): 3.1457219084519004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query routing, the task to route user queries to different large language model (LLM) endpoints, can be considered as a text classification problem. However, out-of-distribution queries must be handled properly, as those could be questions about unrelated domains, queries in other languages, or even contain unsafe text. Here, we thus study a \emph{guarded} query routing problem, for which we first introduce the Guarded Query Routing Benchmark (GQR-Bench), which covers three exemplary target domains (law, finance, and healthcare), and seven datasets to test robustness against out-of-distribution queries. We then use GQR-Bench to contrast the effectiveness and efficiency of LLM-based routing mechanisms (GPT-4o-mini, Llama-3.2-3B, and Llama-3.1-8B), standard LLM-based guardrail approaches (LlamaGuard and NVIDIA NeMo Guardrails), continuous bag-of-words classifiers (WideMLP, fastText), and traditional machine learning models (SVM, XGBoost). Our results show that WideMLP, enhanced with out-of-domain detection capabilities, yields the best trade-off between accuracy (88\%) and speed (<4ms). The embedding-based fastText excels at speed (<1ms) with acceptable accuracy (80\%), whereas LLMs yield the highest accuracy (91\%) but are comparatively slow (62ms for local Llama-3.1:8B and 669ms for remote GPT-4o-mini calls). Our findings challenge the automatic reliance on LLMs for (guarded) query routing and provide concrete recommendations for practical applications. GQR-Bench will be released as a Python package -- \texttt{gqr}.
- Abstract(参考訳): クエリルーティングは、ユーザクエリを異なる大きな言語モデル(LLM)エンドポイントにルーティングするタスクであり、テキスト分類の問題とみなすことができる。
しかし、アウト・オブ・ディストリビューションのクエリは、関係のないドメイン、他の言語のクエリ、さらには安全でないテキストを含むような問題である可能性があるため、適切に処理されなければならない。
そこで我々は,まずGQR-Bench(Guarded Query Routing Benchmark,GQR-Bench)という,3つの模範的対象ドメイン(法則,財務,医療)と7つのデータセットを対象とし,アウト・オブ・ディストリビューションクエリに対してロバスト性をテストする。
次に、GQR-Benchを用いて、LLMベースのルーティング機構(GPT-4o-mini、Llama-3.2-3B、Llama-3.1-8B)、標準LLMベースのガードレールアプローチ(LlamaGuard、NVIDIA NeMo Guardrails)、連続バッグ・オブ・ワード分類器(WideMLP、fastText)、従来の機械学習モデル(SVM、XGBoost)の有効性と効率を比較検討する。
その結果,ドメイン外検出機能に強化されたワイドMLPは,精度(88\%)と速度(4ms)の最良のトレードオフをもたらすことがわかった。
埋め込みベースの fastText は、許容精度 (80\%) で速度 (<1ms) を上回り、LSM は高い精度 (91\%) を得るが、比較的遅い (ローカルの Llama-3.1:8B では62ms、リモートの GPT-4o-mini コールでは 669ms)。
本研究は,LLMを(保護された)クエリルーティングに自動的に依存させることに挑戦し,実用的なアプリケーションに具体的なレコメンデーションを提供する。
GQR-BenchはPythonパッケージ -- \texttt{gqr} としてリリースされる。
関連論文リスト
- Query Routing for Retrieval-Augmented Language Models [38.05904245087491]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - Traceable LLM-based validation of statements in knowledge graphs [0.0]
本稿では,LPMを用いたRDFトリプルの検証手法を提案する。
LLMは、ユーザプロンプトに対する応答を構築するために使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
論文 参考訳(メタデータ) (2024-09-11T12:27:41Z) - QuickLLaMA: Query-aware Inference Acceleration for Large Language Models [94.82978039567236]
大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。
Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。
特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
論文 参考訳(メタデータ) (2024-06-11T17:55:03Z) - Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments [40.95811668230818]
本稿では,構造化環境に対する効率的な推論を行うために,Reasoning-Path-Editing (Readi)を提案する。
Readiはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。
3つのKGQAデータセットと2つのTableQAデータセットの実験結果から、Readiの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T14:59:07Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。