Fugu-MT 論文翻訳(概要): A Unified Approach to Routing and Cascading for LLMs

論文の概要: A Unified Approach to Routing and Cascading for LLMs

arxiv url: http://arxiv.org/abs/2410.10347v2
Date: Fri, 14 Feb 2025 13:13:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.459801
Title: A Unified Approach to Routing and Cascading for LLMs
Title（参考訳）: LLMのルーティングとカスケードへの統一的アプローチ
Authors: Jasper Dekoninck, Maximilian Baader, Martin Vechev,
Abstract要約: 様々なエージェントシステムに埋め込まれた大規模言語モデル(LLM)は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を高めている。既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。我々は、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。本稿では、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。
参考スコア（独自算出の注目度）: 5.653106385738822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The availability of a wide range of large language models (LLMs) embedded in various agentic systems has significantly increased the potential of model selection strategies to improve the cost-performance tradeoff. Existing strategies involve either routing, where a single model is chosen per query, or cascading, which sequentially runs increasingly larger models until a satisfactory answer is found. However, current approaches face three key limitations: they (1) lack formal proofs of optimality, (2) fail to identify the conditions under which these strategies are most effective to improve the cost-performance tradeoff, and (3) are unable to combine both paradigms for further improvements. To address these issues, we first derive a novel optimal strategy for cascading and prove the optimality of an existing routing strategy. Further, we propose cascade routing, a unified framework that integrates routing and cascading into a theoretically optimal strategy. Through our analysis, we identify good quality estimators as the critical factor for the success of model selection paradigms. Finally, in our experiments, we show that cascade routing consistently outperforms the individual approaches by a large margin and we analyze quality estimators to determine when routing and/or cascading are useful paradigms for model selection.
Abstract（参考訳）: 様々なエージェントシステムに埋め込まれた幅広い大規模言語モデル (LLM) の可用性は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を著しく高めた。既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。しかし,現状のアプローチは,(1) 最適性の形式的証明が欠如していること,(2) それらの戦略が費用対効果のトレードオフを改善する上で最も有効である条件の特定に失敗すること,(3) 両パラダイムを組み合わせることのできないこと,の3つの重要な限界に直面している。これらの問題に対処するために、我々はまず、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。さらに、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。本分析により,モデル選択パラダイムの成功の鍵となる要因として,良質な推定器を同定した。最後に,提案実験では,カスケード・ルーティングが個々のアプローチを大きなマージンで一貫して上回ることを示すとともに,モデル選択に有用なルーティングやカスケードがいつ有用かを決定するための品質推定器を解析する。

関連論文リスト

Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。 RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T02:53:17Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
Model Fusion through Bayesian Optimization in Language Model Fine-Tuning [16.86812534268461]
下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
論文参考訳（メタデータ） (2024-11-11T04:36:58Z)
Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。 PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-10-03T11:17:58Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic [22.73746175315071]
ローカライズ・アンド・スティッチ(Localize-and-Stitch)は、モデルをローカライズされた方法でマージする新しいアプローチである。提案手法は,微調整性能に寄与するスパース領域を効果的に検出できることを実証する。また,本アルゴリズムはモデル圧縮を容易にし,事前学習した知識を保存する。
論文参考訳（メタデータ） (2024-08-24T19:14:02Z)
Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文参考訳（メタデータ） (2024-06-30T19:00:49Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文参考訳（メタデータ） (2024-04-02T17:58:49Z)
SepRep-Net: Multi-source Free Domain Adaptation via Model Separation And Reparameterization [75.74369886582394]
本稿では,SepRep-Netと呼ばれる新しいフレームワークを提案する。 SepRep-Netは複数の既存モデルを統合ネットワークに再組み立て、別々の経路(分離)を維持した。 SepRep-Net は、1) 効果、2) 目標領域での競争性能、2) 効率、低い計算コスト、3) 一般化可能性、既存のソリューションよりも多くのソース知識を維持する。
論文参考訳（メタデータ） (2024-02-13T06:35:00Z)
Integrating Fairness and Model Pruning Through Bi-level Optimization [16.213634992886384]
フェアネス基準に準拠したスパースモデルを開発することを含む、フェアモデルプルーニングという新しい概念を導入する。特に,プルーニングマスクと重み更新処理を公平性制約で協調的に最適化する枠組みを提案する。このフレームワークは、統一されたプロセスにおける公正性を確保しながら、パフォーマンスを維持するモデルを圧縮するように設計されている。
論文参考訳（メタデータ） (2023-12-15T20:08:53Z)
Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search [22.570517194736325]
本稿では,エンド・ツー・エンドのマルチタスクモデルを最適化する適応学習手法を提案する。提案手法では,SLURPの完全微調整に対応するパラメータを8.7%に圧縮することで,手作業による類似のチューニング手法を探索することができる。
論文参考訳（メタデータ） (2023-10-23T06:43:50Z)
SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。 SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文参考訳（メタデータ） (2023-09-01T05:12:25Z)
Deep Inverse Reinforcement Learning for Route Choice Modeling [0.6853165736531939]
経路選択モデリングは交通計画と需要予測の基本的な課題である。本研究では,リンクベース経路選択モデルのための一般的な逆強化学習(IRL)フレームワークを提案する。中国上海のタクシーGPSデータに基づく実験結果から,提案モデルの性能改善を検証した。
論文参考訳（メタデータ） (2022-06-18T06:33:06Z)
Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-06-14T06:28:04Z)
Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文参考訳（メタデータ） (2022-05-20T07:02:03Z)
Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-26T09:08:38Z)
PASTO: Strategic Parameter Optimization in Recommendation Systems -- Probabilistic is Better than Deterministic [33.174973495620215]
確率論的戦略パラメータ体系は, 単一の決定論的パラメータを求める標準的手法と比較して, より優れた価値が得られることを示す。私たちのアプローチは、数億人の日々のユーザーを持つ人気のあるソーシャルネットワークプラットフォームに適用されます。
論文参考訳（メタデータ） (2021-08-20T09:02:58Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。 MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文参考訳（メタデータ） (2020-12-08T08:05:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。