Fugu-MT 論文翻訳(概要): RouteLLM: Learning to Route LLMs with Preference Data

論文の概要: RouteLLM: Learning to Route LLMs with Preference Data

arxiv url: http://arxiv.org/abs/2406.18665v4
Date: Sun, 23 Feb 2025 08:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.377245
Title: RouteLLM: Learning to Route LLMs with Preference Data
Title（参考訳）: RouteLLM: 優先度データによるLLMの経路学習
Authors: Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M Waleed Kadous, Ion Stoica,
Abstract要約: 大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
参考スコア（独自算出の注目度）: 41.687640419561504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) exhibit impressive capabilities across a wide range of tasks, yet the choice of which model to use often involves a trade-off between performance and cost. More powerful models, though effective, come with higher expenses, while less capable models are more cost-effective. To address this dilemma, we propose several efficient router models that dynamically select between a stronger and a weaker LLM during inference, aiming to optimize the balance between cost and response quality. We develop a training framework for these routers leveraging human preference data and data augmentation techniques to enhance performance. Our evaluation on widely-recognized benchmarks shows that our approach significantly reduces costs-by over 2 times in certain cases-without compromising the quality of responses. Interestingly, our router models also demonstrate significant transfer learning capabilities, maintaining their performance even when the strong and weak models are changed at test time. This highlights the potential of these routers to provide a cost-effective yet high-performance solution for deploying LLMs.
Abstract（参考訳）: 大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択には、パフォーマンスとコストのトレードオフが伴うことが多い。より強力なモデルは効果的ではあるが、高いコストが伴うが、能力の低いモデルはよりコスト効率が良い。このジレンマに対処するため,提案手法では,コストと応答品質のバランスを最適化することを目的として,推論中に強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。評価の結果,提案手法は応答の質を損なうことなく,特定のケースで2倍以上のコスト削減を実現していることがわかった。興味深いことに、我々のルータモデルは、テスト時に強いモデルと弱いモデルが変更されても、大きな転送学習能力を示し、その性能を維持します。このことは、これらのルータがLCMをデプロイするためのコスト効率は高く、高性能なソリューションを提供する可能性を強調している。

関連論文リスト

Leveraging In-Context Learning for Language Model Agents [51.2996117207114]
インコンテキスト学習(ICL)と動的に選択されたデモは、大規模言語モデル(LLM)の柔軟性と、トレーニングデータを活用してパフォーマンスを向上させる能力を組み合わせたものだ。実演における類似タスクの軌道選択は, LLMエージェントの性能, 信頼性, 堅牢性, 効率を著しく向上させることを示す。より大規模なモデル(アノテーションフェーズ)から得られた実演により、より小さなモデルも改善され、ICLエージェントはよりコストのかかる訓練されたエージェントと競合する可能性がある。
論文参考訳（メタデータ） (2025-06-16T05:37:49Z)
TagRouter: Learning Route to LLMs through Tags for Open-Domain Text Generation Tasks [6.621120466118939]
モデルルーティングは、クエリを適切なモデルに割り当て、コストを削減しながらシステムパフォーマンスを改善する。多言語多言語モデル(LLM)間の相乗効果を最適化する訓練不要なモデルルーティング手法であるTagを提案する。実験の結果、Tagは13の基準法を上回り、システムの受け入れ率を6.15%向上し、コストを17.20%削減し、最適なコスト効率を実現した。
論文参考訳（メタデータ） (2025-06-14T12:17:47Z)
LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-05-22T04:46:04Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。 2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文参考訳（メタデータ） (2025-02-06T19:18:16Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models [5.716829002003189]
既存のルーティングモデルは、慎重にキュレートされたデータから最適なルーティング決定を学ぶことに依存する。本稿では、FMルーティング決定を継続的に適用するためのRAR(Real-time Adaptive Routing)を提案する。 RARは計算コストの高いモデルへの要求を50.2%削減し、一般的な応答品質の90.5%を維持している。
論文参考訳（メタデータ） (2024-11-14T23:02:30Z)
TensorOpera Router: A Multi-Model Router for Efficient LLM Inference [27.2803289964386]
TO-lemmaはモノリシックなLLMクエリシステムである。様々なLLM専門家をシームレスに単一のクエリインターフェースに統合する。クエリの要求に基づいて、入力クエリを最も高性能な専門家に動的にルーティングする。
論文参考訳（メタデータ） (2024-08-22T11:57:07Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文参考訳（メタデータ） (2024-03-11T23:52:46Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Online and Scalable Model Selection with Multi-Armed Bandits [0.0]
AMS(Automatic Model Selector)は、現実世界のパフォーマンスメトリクスに基づいた入札戦略のスケーラブルなオンライン選択のためのシステムです。 AMSは、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスが悪い人にトラフィックを減らします。複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。
論文参考訳（メタデータ） (2021-01-25T20:12:52Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。