論文の概要: EMAFusion: A Self-Optimizing System for Seamless LLM Selection and Integration
- arxiv url: http://arxiv.org/abs/2504.10681v1
- Date: Mon, 14 Apr 2025 20:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:37.304147
- Title: EMAFusion: A Self-Optimizing System for Seamless LLM Selection and Integration
- Title(参考訳): EMAFusion:シームレスLCM選択と統合のための自己最適化システム
- Authors: Soham Shah, Kumar Shridhar, Surojit Chatterjee, Souvik Sen,
- Abstract要約: EMAFusion は LLM の選択とクエリに対する信頼性の高い実行を自己最適化する新しいフレームワークである。
EMAFusionは2.6%以上(94.3%対91.7%)、平均価格より4倍安い。
組み合わせたルーティング手法は、分類基準(88.1%)と学習モデル予測基準(91.7%)に比較して94.3%の精度を提供する。
- 参考スコア(独自算出の注目度): 9.019951211182969
- License:
- Abstract: While recent advances in large language models (LLMs) have significantly enhanced performance across diverse natural language tasks, the high computational and financial costs associated with their deployment remain substantial barriers. Existing routing strategies partially alleviate this challenge by assigning queries to cheaper or specialized models, but they frequently rely on extensive labeled data or fragile task-specific heuristics. Conversely, fusion techniques aggregate multiple LLM outputs to boost accuracy and robustness, yet they often exacerbate cost and may reinforce shared biases. We introduce EMAFusion, a new framework that self-optimizes for seamless LLM selection and reliable execution for a given query. Specifically, EMAFusion integrates a taxonomy-based router for familiar query types, a learned router for ambiguous inputs, and a cascading approach that progressively escalates from cheaper to more expensive models based on multi-judge confidence evaluations. Through extensive evaluations, we find EMAFusion outperforms the best individual models by over 2.6 percentage points (94.3% vs. 91.7%), while being 4X cheaper than the average cost. EMAFusion further achieves a remarkable 17.1 percentage point improvement over models like GPT-4 at less than 1/20th the cost. Our combined routing approach delivers 94.3% accuracy compared to taxonomy-based (88.1%) and learned model predictor-based (91.7%) methods alone, demonstrating the effectiveness of our unified strategy. Finally, EMAFusion supports flexible cost-accuracy trade-offs, allowing users to balance their budgetary constraints and performance needs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語タスクにおける性能を著しく向上させているが、その展開に伴う高い計算コストと財政コストは、依然として大きな障壁である。
既存のルーティング戦略は、クエリを低価格または特殊なモデルに割り当てることによって、この課題を部分的に緩和するが、ラベル付けされた広範なデータや、脆弱なタスク固有のヒューリスティックに依存することが多い。
逆に、融合技術は複数のLCM出力を集約して精度と堅牢性を高めるが、しばしばコストを悪化させ、共有バイアスを強化する。
EMAFusionは,任意のクエリに対して,シームレスなLLM選択と信頼性の高い実行を自己最適化する新しいフレームワークである。
具体的には、慣れ親しんだクエリタイプのための分類に基づくルータ、あいまいな入力のための学習ルータ、そしてマルチジャッジの信頼性評価に基づいて、より安価からより高価なモデルへと徐々にエスカレートするカスケードアプローチを統合する。
広範な評価により、EMAFusionは、平均コストの4倍の4倍の4倍の4.6%のポイント(94.3%対91.7%)で、最高の個人モデルを上回っている。
EMAFusionはさらに、GPT-4のようなモデルよりも1/20以下のコストで17.1ポイントの大幅な改善を実現している。
本手法は,分類学的手法(88.1%)と学習モデル予測手法(91.7%)だけで94.3%の精度を達成し,統一戦略の有効性を実証する。
最後に、EMAFusionは柔軟なコスト-正確性トレードオフをサポートし、ユーザーは予算制約とパフォーマンス要求のバランスをとることができる。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Cost-efficient Knowledge-based Question Answering with Large Language Models [28.816821631082856]
知識に基づく質問応答(KBQA)は、ドメイン知識を必要とする多くのシナリオで広く使われている。
大規模言語モデル(LLM)はKBQAに機会をもたらすが、そのコストは著しく高く、事前トレーニング中にドメイン固有の知識が欠如している。
我々は,KBQA と LLM のコスト効率を向上する新しい戦略である Coke を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:37:34Z) - OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。
当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。
OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-05-24T01:05:37Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Churn Prediction via Multimodal Fusion Learning:Integrating Customer
Financial Literacy, Voice, and Behavioral Data [14.948017876322597]
本稿では,金融サービスプロバイダの顧客リスクレベルを特定するためのマルチモーダル融合学習モデルを提案する。
弊社のアプローチは、顧客感情の財務リテラシー(FL)レベルと、財務行動データを統合している。
我々の新しいアプローチは、チャーン予測の顕著な改善を示し、テスト精度91.2%、平均精度66、マクロ平均F1スコア54を達成した。
論文 参考訳(メタデータ) (2023-12-03T06:28:55Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。