論文の概要: MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2412.18072v1
- Date: Tue, 24 Dec 2024 00:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:57:01.420971
- Title: MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
- Title(参考訳): MMFactory:視覚言語タスクのためのユニバーサルソリューション検索エンジン
- Authors: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal,
- Abstract要約: MMFactoryは、様々な利用可能なモデルにまたがるソリューション検索エンジンのように振る舞う普遍的なフレームワークである。
タスク記述と少数のサンプル出力ペアに基づいて、MMFactoryは多様なプログラム型ソリューションのプールを提案することができる。
MMFactoryはまた、メトリクスを提案し、パフォーマンス/リソース特性をベンチマークすることで、ユーザが独自の設計制約を満たすソリューションを選択することができる。
- 参考スコア(独自算出の注目度): 35.262080125288115
- License:
- Abstract: With advances in foundational and vision-language models, and effective fine-tuning techniques, a large number of both general and special-purpose models have been developed for a variety of visual tasks. Despite the flexibility and accessibility of these models, no single model is able to handle all tasks and/or applications that may be envisioned by potential users. Recent approaches, such as visual programming and multimodal LLMs with integrated tools aim to tackle complex visual tasks, by way of program synthesis. However, such approaches overlook user constraints (e.g., performance / computational needs), produce test-time sample-specific solutions that are difficult to deploy, and, sometimes, require low-level instructions that maybe beyond the abilities of a naive user. To address these limitations, we introduce MMFactory, a universal framework that includes model and metrics routing components, acting like a solution search engine across various available models. Based on a task description and few sample input-output pairs and (optionally) resource and/or performance constraints, MMFactory can suggest a diverse pool of programmatic solutions by instantiating and combining visio-lingual tools from its model repository. In addition to synthesizing these solutions, MMFactory also proposes metrics and benchmarks performance / resource characteristics, allowing users to pick a solution that meets their unique design constraints. From the technical perspective, we also introduced a committee-based solution proposer that leverages multi-agent LLM conversation to generate executable, diverse, universal, and robust solutions for the user. Experimental results show that MMFactory outperforms existing methods by delivering state-of-the-art solutions tailored to user problem specifications. Project page is available at https://davidhalladay.github.io/mmfactory_demo.
- Abstract(参考訳): 基礎モデルと視覚言語モデルの進歩と効果的な微調整技術により、様々な視覚的タスクのための汎用モデルと特殊目的モデルの両方が開発された。
これらのモデルの柔軟性とアクセシビリティにもかかわらず、潜在的なユーザによって想定されるすべてのタスクや/またはアプリケーションを扱うことのできる単一のモデルはありません。
ビジュアルプログラミングや統合ツールを用いたマルチモーダルLLMといった最近のアプローチは、プログラム合成によって複雑な視覚タスクに取り組むことを目的としている。
しかし、そのようなアプローチは、ユーザ制約(例えば、パフォーマンス/計算上のニーズ)を見落とし、デプロイが難しいテストタイムのサンプル固有のソリューションを生成し、時には、単純なユーザの能力を超えた低レベルの命令を必要とする。
これらの制約に対処するため、MMFactoryはモデルとメトリクスのルーティングコンポーネントを含み、様々な利用可能なモデルにまたがるソリューション検索エンジンのように振る舞う普遍的なフレームワークである。
タスク記述と少数のサンプルインプットアウトプットペアと(オプションで)リソースと/またはパフォーマンス制約に基づいて、MMFactoryはモデルリポジトリから視覚言語ツールをインスタンス化し、組み合わせることで、プログラムソリューションの多様なプールを提案できる。
これらのソリューションの合成に加えて、MMFactoryはメトリクスやベンチマークのパフォーマンス/リソース特性も提案している。
技術的観点からは,多エージェントLLM会話を利用して,ユーザに対して実行可能で多様な,普遍的で堅牢なソリューションを生成する,委員会ベースのソリューションプロポーザも導入した。
実験の結果,MMFactoryはユーザ問題仕様に適合した最先端のソリューションを提供することで,既存の手法よりも優れていた。
プロジェクトページはhttps://davidhalladay.github.io/mmfactory_demo.comで公開されている。
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Arcee's MergeKit: A Toolkit for Merging Large Language Models [0.6374098147778188]
MergeKitは、任意のハードウェア上でモデルを効率的にマージするためのフレームワークである。
これまで、何千ものモデルがオープンソースコミュニティによってマージされてきた。
論文 参考訳(メタデータ) (2024-03-20T02:38:01Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - AutoML-GPT: Large Language Model for AutoML [5.9145212342776805]
包括的なツールとライブラリを統合するAutoML-GPTというフレームワークを確立しました。
会話インターフェースを通じて、ユーザーは要求、制約、評価メトリクスを指定できる。
我々は、AutoML-GPTが機械学習タスクに必要な時間と労力を大幅に削減することを示した。
論文 参考訳(メタデータ) (2023-09-03T09:39:49Z) - ModelScope-Agent: Building Your Customizable Agent System with
Open-source Large Language Models [74.64651681052628]
本稿では,オープンソースのLCMをコントローラとする実世界のアプリケーションのためのカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介する。
ユーザフレンドリーなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースLLMでモデルトレーニングをサポートする。
ツール使用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、評価にまたがる包括的なフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-09-02T16:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。