Fugu-MT 論文翻訳(概要): Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

論文の概要: Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

arxiv url: http://arxiv.org/abs/2502.16696v1
Date: Sun, 23 Feb 2025 19:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.31023
Title: Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics
Title（参考訳）: ユーザ嗜好に基づく動的LLMルーティングと選択:パフォーマンス、コスト、倫理のバランス
Authors: Deepak Babu Piskala, Vijay Raajaa, Sachin Mishra, Bruno Bozza,
Abstract要約: 本稿では,タスクを最適大言語モデル(LLM)に動的に選択・ルーティングする,高度なモデルルーティングエンジンであるOptiRouteを紹介する。 OptiRouteは、機能的(例えば、精度、速度、コスト)と非機能的(例えば、有用性、無害性、正直性)の両方の基準を捉え、最適なモデルとタスクを効率的に一致させる。これにより、クラウドベースのMLプラットフォーム、パーソナライズされたAIサービス、規制業界におけるリアルタイムアプリケーションに理想的になります。
参考スコア（独自算出の注目度）: 0.6999740786886538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the widespread deployment of large language models (LLMs) such as GPT4, BART, and LLaMA, the need for a system that can intelligently select the most suitable model for specific tasks while balancing cost, latency, accuracy, and ethical considerations has become increasingly important. Recognizing that not all tasks necessitate models with over 100 billion parameters, we introduce OptiRoute, an advanced model routing engine designed to dynamically select and route tasks to the optimal LLM based on detailed user-defined requirements. OptiRoute captures both functional (e.g., accuracy, speed, cost) and non-functional (e.g., helpfulness, harmlessness, honesty) criteria, leveraging lightweight task analysis and complexity estimation to efficiently match tasks with the best-fit models from a diverse array of LLMs. By employing a hybrid approach combining k-nearest neighbors (kNN) search and hierarchical filtering, OptiRoute optimizes for user priorities while minimizing computational overhead. This makes it ideal for real-time applications in cloud-based ML platforms, personalized AI services, and regulated industries.
Abstract（参考訳）: GPT4、BART、LLaMAといった大規模言語モデル(LLM)が広く展開されるにつれ、コスト、レイテンシ、精度、倫理的考慮のバランスを保ちながら、特定のタスクに最も適したモデルをインテリジェントに選択できるシステムの必要性が高まっている。すべてのタスクが1000億以上のパラメータを持つモデルを必要とするわけではないことを認識して,ユーザ定義の詳細な要件に基づいて,タスクを最適LLMに動的に選択およびルーティングするように設計された,高度なモデルルーティングエンジンOptiRouteを導入する。 OptiRouteは、機能的(例えば、正確性、スピード、コスト)と非機能的(例えば、有用性、無害性、正直性)の両方の基準を捉え、軽量なタスク分析と複雑性推定を活用して、多種多様なLCMの最適モデルとタスクを効率的にマッチングする。 k-nearest neighbors(kNN)検索と階層フィルタリングを組み合わせたハイブリッドアプローチを採用することで、OptiRouteは計算オーバーヘッドを最小限にしつつ、ユーザの優先順位を最適化する。これにより、クラウドベースのMLプラットフォーム、パーソナライズされたAIサービス、規制業界におけるリアルタイムアプリケーションに理想的になります。

関連論文リスト

OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling [3.8366697175402225]
我々は,反復的な自己言語を使わずに,自然補正記述から高品質な問題解決を行うフレームワークOptiHiveを紹介した。 OptiHiveは単一のバッチLLMクエリを使用して、さまざまなコンポーネント(ソルバ、問題インスタンス、バリデーションテスト)を生成し、誤ったコンポーネントをフィルタリングして完全に解釈可能な出力を保証する。従来の最適化問題からMulti-Depot Vehicle Routing Problemの変種への挑戦に至るまでのタスクにおいて、OptiHiveはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-08-04T15:11:51Z)
Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees [21.2175476090125]
オープンウェイトなLLM動物園は、多くの高品質なモデルへのアクセスを提供する。ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。本稿では,コスト-最適要求ルーティングのためのコスト-最適最適化アルゴリズムであるMESS+を紹介する。
論文参考訳（メタデータ） (2025-05-26T13:11:08Z)
LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-05-22T04:46:04Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems [8.438382004567961]
本稿では,LLMおよびRAGシステム全体に対するコスト,レイテンシ,安全性,アライメントの多目的パラメータ最適化のための最初のアプローチを提案する。ベイジアン最適化法はベースライン法よりも有意に優れていた。我々は,多目的RAGシステムを設計している実践者に対する重要な配慮で研究を締めくくっている。
論文参考訳（メタデータ） (2025-02-25T20:52:06Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文参考訳（メタデータ） (2025-02-04T22:09:43Z)
Automatic selection of the best neural architecture for time series forecasting via multi-objective optimization and Pareto optimality conditions [1.4843690728082002]
時系列予測は、天気予報、医療、構造的健康モニタリング、予測保守、エネルギーシステム、金融市場など、幅広い分野で重要な役割を果たしている。 LSTM、GRU、Transformers、State-Space Models (SSM) などのモデルがこの領域の標準ツールとなっているが、最適なアーキテクチャを選択することは依然として課題である。本稿では,LSTM,GRU,マルチヘッドアテンション,SSMブロックを統合した時系列予測のためのフレキシブルな自動フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-21T15:33:55Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文参考訳（メタデータ） (2024-06-27T02:46:30Z)
ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
最適化モデルのための半自動データ合成フレームワークOR-Instructを紹介する。また,実用的なOR問題を解く上で,LLMを評価するための最初の産業ベンチマークであるIndustrialORを紹介した。
論文参考訳（メタデータ） (2024-05-28T01:55:35Z)
OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。 OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2024-05-24T01:05:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。