論文の概要: Olympus: A Universal Task Router for Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2412.09612v1
- Date: Thu, 12 Dec 2024 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:45.972962
- Title: Olympus: A Universal Task Router for Computer Vision Tasks
- Title(参考訳): Olympus: コンピュータビジョンタスクのためのユニバーサルタスクルータ
- Authors: Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip H. S. Torr,
- Abstract要約: MLLM(Multimodal Large Language Models)を統一フレームワークに変換する新しいアプローチであるOlympusを紹介する。
Olympusは、画像、ビデオ、および3Dオブジェクトにまたがる20以上の特別なタスクを専用のモジュールに委譲する。
Olympusは20のタスクで平均94.75%のルーティング精度を達成し、連鎖したアクションシナリオでは91.82%の精度を実現している。
- 参考スコア(独自算出の注目度): 74.07725903782928
- License:
- Abstract: We introduce Olympus, a new approach that transforms Multimodal Large Language Models (MLLMs) into a unified framework capable of handling a wide array of computer vision tasks. Utilizing a controller MLLM, Olympus delegates over 20 specialized tasks across images, videos, and 3D objects to dedicated modules. This instruction-based routing enables complex workflows through chained actions without the need for training heavy generative models. Olympus easily integrates with existing MLLMs, expanding their capabilities with comparable performance. Experimental results demonstrate that Olympus achieves an average routing accuracy of 94.75% across 20 tasks and precision of 91.82% in chained action scenarios, showcasing its effectiveness as a universal task router that can solve a diverse range of computer vision tasks. Project page: https://github.com/yuanze-lin/Olympus_page
- Abstract(参考訳): Olympusは,マルチモーダル大規模言語モデル(MLLM)を,幅広いコンピュータビジョンタスクを処理可能な統一フレームワークに変換する新しいアプローチである。
コントローラMLLMを利用することで、Olympusは20以上の特別なタスクをイメージ、ビデオ、および3Dオブジェクトを専用のモジュールに委譲する。
この命令ベースのルーティングは、重い生成モデルをトレーニングすることなく、連鎖したアクションを通じて複雑なワークフローを可能にする。
Olympusは既存のMLLMと簡単に統合でき、同等のパフォーマンスで機能を拡張できる。
実験の結果、Olympusは20のタスクで平均94.75%のルーティング精度、連鎖したアクションシナリオで91.82%の精度を実現し、多様なコンピュータビジョンタスクを解決できるユニバーサルタスクルータとしての有効性を示した。
プロジェクトページ:https://github.com/yuanze-lin/Olympus_page
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - TANGO: Training-free Embodied AI Agents for Open-world Tasks [11.029387480118652]
本稿では,すでに観測されているLCMを用いてプログラム構成を拡張するTANGOを提案する。
追加のトレーニングを必要とせずに、単一のモデルが多様なタスクにどのように対処できるかを示す。
我々は,オープンセットオブジェクトゴールナビゲーション,マルチモーダルライフロングナビゲーション,オープンエンボディード質問回答という3つの重要なAIタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-12-05T21:52:20Z) - PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。
PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。
この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文 参考訳(メタデータ) (2024-10-17T17:59:57Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。