論文の概要: ORXE: Orchestrating Experts for Dynamically Configurable Efficiency
- arxiv url: http://arxiv.org/abs/2505.04850v1
- Date: Wed, 07 May 2025 23:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.700156
- Title: ORXE: Orchestrating Experts for Dynamically Configurable Efficiency
- Title(参考訳): ORXE: 動的に構成可能な効率のために専門家をオーケストレーションする
- Authors: Qingyuan Wang, Guoxin Wang, Barry Cardiff, Deepu John,
- Abstract要約: ORXEは、AIモデルでリアルタイム効率を達成するためのモジュラーフレームワークである。
入力サンプルの複雑さに基づいて推論経路を動的に調整する。
他のアプリケーションにも拡張可能で、さまざまな現実世界のデプロイメントシナリオに対してスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 5.2312646101044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents ORXE, a modular and adaptable framework for achieving real-time configurable efficiency in AI models. By leveraging a collection of pre-trained experts with diverse computational costs and performance levels, ORXE dynamically adjusts inference pathways based on the complexity of input samples. Unlike conventional approaches that require complex metamodel training, ORXE achieves high efficiency and flexibility without complicating the development process. The proposed system utilizes a confidence-based gating mechanism to allocate appropriate computational resources for each input. ORXE also supports adjustments to the preference between inference cost and prediction performance across a wide range during runtime. We implemented a training-free ORXE system for image classification tasks, evaluating its efficiency and accuracy across various devices. The results demonstrate that ORXE achieves superior performance compared to individual experts and other dynamic models in most cases. This approach can be extended to other applications, providing a scalable solution for diverse real-world deployment scenarios.
- Abstract(参考訳): 本稿では,AIモデルにおけるリアルタイム構成可能効率を実現するための,モジュール型で適応可能なフレームワークORXEを提案する。
様々な計算コストとパフォーマンスレベルを持つ事前訓練された専門家のコレクションを活用することで、ORXEは入力サンプルの複雑さに基づいて推論経路を動的に調整する。
複雑なメタモデルトレーニングを必要とする従来のアプローチとは異なり、ORXEは開発プロセスを複雑にすることなく高い効率と柔軟性を達成する。
提案システムは,信頼度に基づくゲーティング機構を用いて,各入力に対して適切な計算資源を割り当てる。
ORXEはまた、実行中に広範囲にわたる推論コストと予測性能の優先順位の調整もサポートする。
画像分類タスクのための訓練不要ORXEシステムを実装し,その効率と精度を様々なデバイスで評価した。
その結果,ORXEは個々の専門家や動的モデルと比較して,ほとんどの場合において優れた性能を発揮することが示された。
このアプローチは他のアプリケーションにも拡張可能で、さまざまな現実世界のデプロイメントシナリオに対してスケーラブルなソリューションを提供する。
関連論文リスト
- A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Landscape-Aware Automated Algorithm Configuration using Multi-output Mixed Regression and Classification [0.01649298969786889]
モデル学習におけるランダム生成関数(RGF)の可能性について検討する。
自動アルゴリズム構成(AAC)に焦点を当てる。
混合回帰および分類タスクの処理における高密度ニューラルネットワーク(NN)モデルの性能解析を行う。
論文 参考訳(メタデータ) (2024-09-02T20:04:41Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HINNPerf: Hierarchical Interaction Neural Network for Performance
Prediction of Configurable Systems [22.380061796355616]
HINNPerfは、性能予測のための新しい階層型相互作用ニューラルネットワークである。
HINNPerfは、構成オプション間の複雑な相互作用をモデル化するために、埋め込みメソッドと階層ネットワークブロックを使用している。
実世界の10のシステムにおける実証実験の結果,我々の手法は最先端の手法よりも統計的に優れていた。
論文 参考訳(メタデータ) (2022-04-08T08:52:23Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。