論文の概要: Towards Resource-Efficient Multimodal Intelligence: Learned Routing among Specialized Expert Models
- arxiv url: http://arxiv.org/abs/2511.06441v1
- Date: Sun, 09 Nov 2025 16:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.946007
- Title: Towards Resource-Efficient Multimodal Intelligence: Learned Routing among Specialized Expert Models
- Title(参考訳): 資源効率の良いマルチモーダルインテリジェンスを目指して:専門的エキスパートモデル間のルーティングを学習する
- Authors: Mayank Saini, Arit Kumar Bishwas,
- Abstract要約: 大規模言語モデル(LLM)は、視覚、音声、文書理解の力を強めている。
小さなオープンソースモデルはコスト上の利点を提供するが、複雑なクエリやマルチモーダルクエリに苦労する。
私たちは、各クエリを最も適したエキスパートモデルにインテリジェントにルーティングする、統一されたモジュール化されたフレームワークを導入します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI moves beyond text, large language models (LLMs) increasingly power vision, audio, and document understanding; however, their high inference costs hinder real-time, scalable deployment. Conversely, smaller open-source models offer cost advantages but struggle with complex or multimodal queries. We introduce a unified, modular framework that intelligently routes each query - textual, multimodal, or complex - to the most fitting expert model, using a learned routing network that balances cost and quality. For vision tasks, we employ a two-stage open-source pipeline optimized for efficiency and reviving efficient classical vision components where they remain SOTA for sub-tasks. On benchmarks such as Massive Multitask Language Understanding (MMLU) and Visual Question Answering (VQA), we match or exceed the performance of always-premium LLM (monolithic systems with one model serving all query types) performance, yet reduce the reliance on costly models by over 67%. With its extensible, multi-agent orchestration, we deliver high-quality, resource-efficient AI at scale.
- Abstract(参考訳): AIがテキストを超えて進むにつれて、大きな言語モデル(LLM)はビジョン、オーディオ、ドキュメント理解のパワーを増すが、その高い推論コストは、リアルタイムでスケーラブルなデプロイメントを妨げる。
逆に、より小さなオープンソースモデルはコスト上の利点を提供するが、複雑なクエリやマルチモーダルクエリに苦労する。
私たちは、コストと品質のバランスをとる学習されたルーティングネットワークを使用して、各クエリ(テキスト、マルチモーダル、複雑)を最も適したエキスパートモデルにインテリジェントにルーティングする、統一されたモジュール化されたフレームワークを導入します。
ビジョンタスクには、2段階のオープンソースパイプラインを使用して効率を最適化し、従来のビジョンコンポーネントを復活させ、サブタスクのSOTAを維持します。
MMLU (Massive Multitask Language Understanding) やVQA (Visual Question Answering) などのベンチマークでは、常にプリミウムのLCM(モノリシックなシステムで、全てのクエリタイプに対応する1つのモデル)のパフォーマンスに適合するが、コストのかかるモデルへの依存を67%以上削減する。
拡張可能なマルチエージェントオーケストレーションでは、高品質でリソース効率のよいAIを大規模に提供しています。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Local-Cloud Inference Offloading for LLMs in Multi-Modal, Multi-Task, Multi-Dialogue Settings [41.04961369663905]
大規模言語モデル(LLM)は、複数の対話やマルチモーダルデータソースを通じてマルチタスク解決能力を示すことができる。
LLMのこれらのユニークな特徴は、その大きなモデルサイズとともに、そのデプロイメントをより困難にしている。
我々は,マルチモーダル,マルチタスク,マルチ対話という3次元オフロードを備えたローカルクラウドLLM推論システムであるTMOを設計する。
論文 参考訳(メタデータ) (2025-02-16T06:18:28Z) - ModServe: Modality- and Stage-Aware Resource Disaggregation for Scalable Multimodal Model Serving [22.720918893103057]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。