Fugu-MT 論文翻訳(概要): How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities

論文の概要: How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities

arxiv url: http://arxiv.org/abs/2504.07113v1
Date: Thu, 20 Mar 2025 19:52:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-20 18:51:09.936198
Title: How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities
Title（参考訳）: ルータLLMのロバスト性 : LLMルーティング能力の脆弱性の解析
Authors: Aly M. Kassem, Bernhard Schölkopf, Zhijing Jin,
Abstract要約: 大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。 DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
参考スコア（独自算出の注目度）: 62.474732677086855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM) routing has emerged as a crucial strategy for balancing computational costs with performance by dynamically assigning queries to the most appropriate model based on query complexity. Despite recent advances showing that preference-data-based routers can outperform traditional methods, current evaluation benchmarks remain limited. They largely focus on general model capabilities while overlooking task-specific behaviors and critical concerns such as privacy, safety, and potential backdoor vulnerabilities introduced through preference data. In response, we propose the DSC benchmark: Diverse, Simple, and Categorized, an evaluation framework that categorizes router performance across a broad spectrum of query types, including coding, translation, mathematics, human instructions, general knowledge, and LLM jailbreaking. Additionally, it integrates privacy and safety assessments to reveal hidden risks. Our experiments on three preference-based routers and two commercial counterparts demonstrate that while these systems improve efficiency, they often make suboptimal, category-driven decisions. For instance, a BERT-based router directs all coding and mathematics queries to the most powerful LLM even when simpler models would suffice, while routing jailbreaking attempts to weaker models, thereby elevating safety risks.
Abstract（参考訳）: 大規模言語モデル(LLM)ルーティングは,クエリの複雑性に基づいてクエリを最適なモデルに動的に割り当てることで,計算コストと性能のバランスをとる上で重要な戦略として登場した。最近の進歩は、好みデータベースのルータが従来の手法より優れていることを示しているが、現在の評価ベンチマークは限られている。それらは主に、タスク固有の振る舞いやプライバシ、安全性、プライバシデータを通じて導入された潜在的なバックドア脆弱性といった重要な懸念を乗り越えながら、一般的なモデル機能に重点を置いている。 DSCベンチマークを提案する。 Diverse, Simple, and Categorizedは,コーディング,翻訳,数学,ヒューマンインストラクション,一般知識,LLMジェイルブレイクなど,幅広いクエリタイプにわたるルータパフォーマンスを分類する評価フレームワークである。さらに、プライバシーと安全性の評価を統合して、隠れたリスクを明らかにする。 3つの好みに基づくルータと2つの商用ルータの実験により、これらのシステムは効率を向上する一方で、サブ最適、カテゴリー駆動的な決定を下すことがしばしば示されている。例えばBERTベースのルータは、単純なモデルで十分である場合でも、すべてのコーディングと数学のクエリを最強のLLMに指示する一方で、ジェイルブレイクをルーティングすることでモデルを弱め、安全性のリスクを高める。

関連論文リスト

Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensはAlgebraベースのツールで、自動車分野のデータセットを分析する。高いF1スコアを達成し、より堅牢な複雑で曖昧なクエリを処理する。高い精度と信頼性を維持しながら、分析時間を80%以上削減する。
論文参考訳（メタデータ） (2025-03-27T17:48:32Z)
Life-Cycle Routing Vulnerabilities of LLM Router [14.967638451190403]
大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めているが、その性能と計算コストは著しく異なる。 LLMルータは、これらのトレードオフの動的バランスにおいて重要な役割を果たす。 LLMルータのライフサイクルルーティング脆弱性に関する包括的調査を行う。
論文参考訳（メタデータ） (2025-03-09T06:00:35Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Advancing TTP Analysis: Harnessing the Power of Large Language Models with Retrieval Augmented Generation [1.2289361708127877]
大規模言語モデル(LLM)が、サイバーセキュリティなどの重要なドメインに対して正確な応答を提供するために、効率的かつ適切な方法でどのように使用できるかは、不明である。この研究は、デコーダのみのLLMに対するエンコーダのみのLLM(Retrieval Augmented Generation, RAG)に対する教師付き微調整(SFT)の使用について研究し、比較する。本研究では,RAGを用いたデコーダのみのLLMが,SFTを用いたエンコーダのみのモデルよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2023-12-30T16:56:24Z)
When a RF Beats a CNN and GRU, Together -- A Comparison of Deep Learning and Classical Machine Learning Approaches for Encrypted Malware Traffic Classification [4.495583520377878]
悪意のあるトラフィック分類の場合、最先端のDLベースのソリューションは、古典的なMLベースのソリューションよりも必ずしも優れているとは限らないことを示す。マルウェア検出、マルウェア家族分類、ゼロデイ攻撃の検出、反復的に増加するデータセットの分類など、さまざまなタスクに2つのよく知られたデータセットを使用することで、この発見を実証する。
論文参考訳（メタデータ） (2022-06-16T08:59:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。