論文の概要: Batching-Aware Joint Model Onloading and Offloading for Hierarchical Multi-Task Inference
- arxiv url: http://arxiv.org/abs/2508.13380v1
- Date: Mon, 18 Aug 2025 21:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.732356
- Title: Batching-Aware Joint Model Onloading and Offloading for Hierarchical Multi-Task Inference
- Title(参考訳): 階層型マルチタスク推論のためのバッチ対応ジョイントモデルオーバーロードとオフロード
- Authors: Seohyeon Cha, Kevin Chan, Gustavo de Veciana, Haris Vikalo,
- Abstract要約: クライアントとエッジサーバにどのマルチタスクモデルをデプロイ(オンロード)するかを共同で決定する統合フレームワークを提案する。
本稿では,ラグランジアン近似による部分モジュラー最適化によりモデル載荷を選択し,最適なオフロードを決定する交互アルゴリズムであるJ3Oを紹介する。
実験によると、J3Oは最適な精度の97%以上を一貫して達成し、最適なソルバが要求するランタイムの15%以下を達成している。
- 参考スコア(独自算出の注目度): 16.974966624253156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing demand for intelligent services on resource-constrained edge devices has spurred the development of collaborative inference systems that distribute workloads across end devices, edge servers, and the cloud. While most existing frameworks focus on single-task, single-model scenarios, many real-world applications (e.g., autonomous driving and augmented reality) require concurrent execution of diverse tasks including detection, segmentation, and depth estimation. In this work, we propose a unified framework to jointly decide which multi-task models to deploy (onload) at clients and edge servers, and how to route queries across the hierarchy (offload) to maximize overall inference accuracy under memory, compute, and communication constraints. We formulate this as a mixed-integer program and introduce J3O (Joint Optimization of Onloading and Offloading), an alternating algorithm that (i) greedily selects models to onload via Lagrangian-relaxed submodular optimization and (ii) determines optimal offloading via constrained linear programming. We further extend J3O to account for batching at the edge, maintaining scalability under heterogeneous task loads. Experiments show J3O consistently achieves over $97\%$ of the optimal accuracy while incurring less than $15\%$ of the runtime required by the optimal solver across multi-task benchmarks.
- Abstract(参考訳): リソース制約のあるエッジデバイス上のインテリジェントなサービスに対する需要が高まり、エンドデバイス、エッジサーバ、クラウドにワークロードを分散する協調推論システムの開発が加速した。
既存のフレームワークのほとんどはシングルタスク、シングルモデルシナリオに重点を置いているが、現実の多くのアプリケーション(例えば、自律運転や拡張現実)では、検出、セグメンテーション、深さ推定など、さまざまなタスクを同時実行する必要がある。
本研究では,クライアントとエッジサーバにどのマルチタスクモデルをデプロイ(オンロード)するかを共同で決定する統合フレームワークを提案し,メモリ,計算,通信制約下での全体的な推論精度を最大化するためにクエリを階層(オフロード)にルーティングする方法を提案する。
これを混合整数プログラムとして定式化し、交互アルゴリズムであるJ3O(Joint Optimization of Onloading and Offloading)を導入する。
i) Lagrangian-relaxed submodular Optimization を通じてロードするモデルをグレディに選択する。
(ii)制約付き線形プログラミングによる最適オフロードを決定する。
我々はさらにJ3Oを拡張して、ヘテロジニアスなタスク負荷下でのスケーラビリティを維持します。
実験の結果、J3Oは最適な精度の9,7\%以上を一貫して達成し、マルチタスクベンチマークで最適なソルバが要求するランタイムの15\%以下を実現している。
関連論文リスト
- D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - PartialLoading: User Scheduling and Bandwidth Allocation for Parameter-sharing Edge Inference [32.58445942857626]
マルチユーザエッジ推論のためのパラメータ共有AIモデルローディングフレームワークを開発した。
タスクスループットを最大化するために、モデル間の共有パラメータブロックを利用する。
提案するフレームワークは,ユーザスケジューリングと比較して,期限下でのタスクスループットを著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T05:58:07Z) - Octo-planner: On-device Language Model for Planner-Action Agents [19.627197141903505]
Planner-Actionフレームワークは、計画とアクションの実行を2つの異なるコンポーネントに分離する。
Agentはまず、タスクをサブステップのシーケンスに分解してユーザクエリに応答し、アクションエージェントによって実行される。
我々は、文脈内学習の代わりにモデル微調整を採用し、計算コストとエネルギー消費を削減した。
論文 参考訳(メタデータ) (2024-06-26T05:40:10Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。