Fugu-MT 論文翻訳(概要): Olympus: A Universal Task Router for Computer Vision Tasks

論文の概要: Olympus: A Universal Task Router for Computer Vision Tasks

arxiv url: http://arxiv.org/abs/2412.09612v2
Date: Fri, 13 Dec 2024 12:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 13:36:12.852746
Title: Olympus: A Universal Task Router for Computer Vision Tasks
Title（参考訳）: Olympus: コンピュータビジョンタスクのためのユニバーサルタスクルータ
Authors: Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip H. S. Torr,
Abstract要約: Olympusは,マルチモーダル大規模言語モデル(MLLM)を,幅広いコンピュータビジョンタスクを処理可能な統一フレームワークに変換する新しいアプローチである。 Olympusは20のタスクで平均94.75%のルーティング精度を達成し、連鎖したアクションシナリオでは91.82%の精度を実現している。
参考スコア（独自算出の注目度）: 74.07725903782928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Olympus, a new approach that transforms Multimodal Large Language Models (MLLMs) into a unified framework capable of handling a wide array of computer vision tasks. Utilizing a controller MLLM, Olympus delegates over 20 specialized tasks across images, videos, and 3D objects to dedicated modules. This instruction-based routing enables complex workflows through chained actions without the need for training heavy generative models. Olympus easily integrates with existing MLLMs, expanding their capabilities with comparable performance. Experimental results demonstrate that Olympus achieves an average routing accuracy of 94.75% across 20 tasks and precision of 91.82% in chained action scenarios, showcasing its effectiveness as a universal task router that can solve a diverse range of computer vision tasks. Project page: http://yuanze-lin.me/Olympus_page/
Abstract（参考訳）: Olympusは,マルチモーダル大規模言語モデル(MLLM)を,幅広いコンピュータビジョンタスクを処理可能な統一フレームワークに変換する新しいアプローチである。コントローラMLLMを利用することで、Olympusは20以上の特別なタスクをイメージ、ビデオ、および3Dオブジェクトを専用のモジュールに委譲する。この命令ベースのルーティングは、重い生成モデルをトレーニングすることなく、連鎖したアクションを通じて複雑なワークフローを可能にする。 Olympusは既存のMLLMと簡単に統合でき、同等のパフォーマンスで機能を拡張できる。実験の結果、Olympusは20のタスクで平均94.75%のルーティング精度、連鎖したアクションシナリオで91.82%の精度を実現し、多様なコンピュータビジョンタスクを解決できるユニバーサルタスクルータとしての有効性を示した。プロジェクトページ:http://yuanze-lin.me/Olympus_page/

関連論文リスト

LLaVAction: evaluating and training multi-modal large language models for action recognition [46.473599879244716]
我々は,行動認識を行うためのMLLMの評価と改善に重点を置いている。 EPIC-KITCHENS-100は,エゴセントリックな行動データセットとして最大かつ最も困難である。難解な答えを邪魔者としてサンプリングすると、MLLMは正しい行動を認識するのに苦労する。
論文参考訳（メタデータ） (2025-03-24T14:24:17Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
TANGO: Training-free Embodied AI Agents for Open-world Tasks [11.029387480118652]
本稿では,すでに観測されているLCMを用いてプログラム構成を拡張するTANGOを提案する。追加のトレーニングを必要とせずに、単一のモデルが多様なタスクにどのように対処できるかを示す。我々は,オープンセットオブジェクトゴールナビゲーション,マルチモーダルライフロングナビゲーション,オープンエンボディード質問回答という3つの重要なAIタスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-12-05T21:52:20Z)
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation [62.747751204215916]
統一MLLMと多言語視覚生成を併用したPUMAを提案する。 PUMAはMLLMの入力と出力の両方としてマルチグラニュラ視覚特徴を統一する。この研究は、様々な視覚的タスクの粒度要求に適応できる真に統一されたMLLMに向けた重要なステップである。
論文参考訳（メタデータ） (2024-10-17T17:59:57Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck [45.83457913639876]
本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。我々のフレームワークには,トランスフォーメーションネックのトレーニングから下流MLLMを除いた印象的な機能と,ニューラルイメージも備えています。
論文参考訳（メタデータ） (2024-07-29T02:32:44Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文参考訳（メタデータ） (2023-10-16T09:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。