論文の概要: Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling
- arxiv url: http://arxiv.org/abs/2603.06403v1
- Date: Fri, 06 Mar 2026 15:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.111916
- Title: Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling
- Title(参考訳): オンラインマルチ拘束型マルチモーダル推論スケジューリングのためのアダプタ拡張帯域
- Authors: Xianzhi Zhang, Yue Xu, Yinlin Zhu, Di Wu, Yipeng Zhou, Miao Hu, Guocong Quan,
- Abstract要約: 本稿では,3つのコンポーネントを持つマルチアダプタ型MLLM推論フレームワークを提案する。
emphM-CMABは、予算制全体にわたって、最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.731771957197044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language model (MLLM) inference scheduling enables strong response quality under practical and heterogeneous budgets, beyond what a homogeneous single-backend setting can offer. Yet online MLLM task scheduling is nontrivial, as requests vary sharply in modality composition and latent reasoning difficulty, while execution backends incur distinct, time-varying costs due to system jitter and network variation. These coupled uncertainties pose two core challenges: deriving semantically faithful yet scheduling-relevant multi-modal task representations, and making low-overhead online decisions over irreversible multi-dimensional budgets. Accordingly, we propose \emph{M-CMAB} (\underline{M}ulti-modal \underline{M}ulti-constraint \underline{C}ontextual \underline{M}ulti-\underline{A}rmed \underline{B}andit), a multi-adapter-enhanced MLLM inference scheduling framework with three components: (i) a CLS-attentive, frozen-backbone \emph{Predictor} that extracts compact task representations and updates only lightweight adapters for action-specific estimation; (ii) a primal-dual \emph{Constrainer} that maintains online Lagrange multipliers to enforce long-horizon constraints via per-round objectives; and (iii) a two-phase \emph{Scheduler} that balances exploration and exploitation under irreversible budgets. We establish a regret guarantee under multi-dimensional knapsack constraints. On a composite multimodal benchmark with heterogeneous backends, \emph{M-CMAB} consistently outperforms state-of-the-art baselines across budget regimes, achieving up to 14.18% higher reward and closely tracking an oracle-aided upper bound. Codes are available at https://anonymous.4open.science/r/M2CMAB/.
- Abstract(参考訳): MLLM(Multi-modal large language model)推論スケジューリングは、一様の単一バックエンド設定が提供できる範囲を超えて、実用的で不均一な予算の下で、強力な応答品質を実現する。
しかし、オンラインMLLMタスクスケジューリングは、要求がモダリティの構成や遅延推論の難しさに大きく変化するため、簡単ではない。
これらの不確実性は、セマンティックに忠実でスケジューリングに関連のあるタスク表現を導出すること、および、不可逆な多次元予算に対して低オーバーヘッドのオンライン決定を行うことである。
そこで我々は,マルチアダプタ強化MLLM推論フレームワークである \emph{M-CMAB} (\underline{M}ulti-modal \underline{M}ulti-constraint \underline{C}ontextual \underline{M}ulti-\underline{A}rmed \underline{B}andit)を提案する。
i) コンパクトなタスク表現を抽出し、アクション固有の推定のための軽量アダプタのみを更新する、CLS対応のフリーズバックボーン \emph{Predictor}。
(二 オンラインラグランジュ乗算器を保守し、丸ごとの目的を通した長期制約を強制する原始双対emph{Constrainer}
三 不可逆予算による探究及び搾取のバランスをとる二段階のセフ{Scheduler}
我々は多次元クナプサック制約の下で後悔の保証を確立する。
ヘテロジニアスなバックエンドを持つ複合マルチモーダルベンチマークでは、 \emph{M-CMAB} は一貫して予算体制全体にわたって最先端のベースラインを上回り、最大14.18%の報酬を達成し、オラクル支援の上界を密に追跡する。
コードはhttps://anonymous.4open.science/r/M2CMAB/で入手できる。
関連論文リスト
- MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing [41.77627136743721]
実際のデプロイメントでは、ワークロードは軽量なOCRから複雑なマルチモーダル推論にまたがる。
ルーティングは、モダリティの融合、モデル間での計算コストの変動、標準化された予算対応評価の欠如などにより、簡単ではない。
MMR-Benchは、マルチモーダルルーティング問題を分離し、固定された候補セットとコストモデルで比較できる統一ベンチマークである。
論文 参考訳(メタデータ) (2026-01-25T12:44:14Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - Cost-Effective Online Multi-LLM Selection with Versatile Reward Models [30.892090566736652]
大規模言語モデル (LLM) を選択・使用するためのオンラインモデルである textitC2MAB-V を導入する。
textitC2MAB-Vは、様々な報酬モデルを持つ様々な協調タスクタイプに特化している。
textitC2MAB-Vは,3つのアプリケーションシナリオに対して,性能とコスト効率を9つのLLMと効果的にバランスさせることを示す。
論文 参考訳(メタデータ) (2024-05-26T14:38:24Z) - Hierarchical Deep Reinforcement Learning Approach for Multi-Objective
Scheduling With Varying Queue Sizes [19.457882940942284]
MERLINは、多目的タスクスケジューリングのための頑健でモジュール的で、ほぼ最適のDRLベースのアプローチである。
MERLINは、個々のタスクの処理のための1つのニューラルネットワークと、全体のキューのスケジューリングのためのもう1つのニューラルネットワークを作成することで、MOTS問題に階層的なアプローチを適用する。
より小さく、トレーニング時間の短縮に加えて、結果として得られるアーキテクチャは、アイテムがキュー内の位置に関わらず、同じ方法で処理されることを保証する。
論文 参考訳(メタデータ) (2020-07-17T21:59:06Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。