論文の概要: VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
- arxiv url: http://arxiv.org/abs/2407.11691v2
- Date: Wed, 11 Sep 2024 17:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:32:18.238264
- Title: VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
- Title(参考訳): VLMEvalKit: 大規模なマルチモーダルモデルを評価するオープンソースツールキット
- Authors: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Amit Agarwal, Zhe Chen, Mo Li, Yubo Ma, Hailong Sun, Xiangyu Zhao, Junbo Cui, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen,
- Abstract要約: PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
- 参考スコア(独自算出の注目度): 89.63342806812413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VLMEvalKit: an open-source toolkit for evaluating large multi-modality models based on PyTorch. The toolkit aims to provide a user-friendly and comprehensive framework for researchers and developers to evaluate existing multi-modality models and publish reproducible evaluation results. In VLMEvalKit, we implement over 70 different large multi-modality models, including both proprietary APIs and open-source models, as well as more than 20 different multi-modal benchmarks. By implementing a single interface, new models can be easily added to the toolkit, while the toolkit automatically handles the remaining workloads, including data preparation, distributed inference, prediction post-processing, and metric calculation. Although the toolkit is currently mainly used for evaluating large vision-language models, its design is compatible with future updates that incorporate additional modalities, such as audio and video. Based on the evaluation results obtained with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to track the progress of multi-modality learning research. The toolkit is released at https://github.com/open-compass/VLMEvalKit and is actively maintained.
- Abstract(参考訳): 本稿では,PyTorchをベースとした大規模マルチモーダルモデル評価用オープンソースツールキットVLMEvalKitを提案する。
このツールキットは、研究者や開発者が既存のマルチモダリティモデルを評価し、再現可能な評価結果を公開するための、ユーザフレンドリで包括的なフレームワークを提供することを目的としている。
VLMEvalKitでは、プロプライエタリなAPIとオープンソースモデルの両方を含む70以上の大規模なマルチモーダルモデルと、20以上の異なるマルチモーダルベンチマークを実装しています。
単一のインターフェースを実装することで、ツールキットに新しいモデルを簡単に追加でき、ツールキットはデータ準備、分散推論、予測後処理、メトリック計算を含む残りのワークロードを自動的に処理する。
このツールキットは、現在主に大きな視覚言語モデルの評価に使われているが、オーディオやビデオなどの追加のモダリティを含む将来のアップデートと互換性がある。
このツールキットを用いて得られた評価結果に基づいて,マルチモーダル学習研究の進展を追跡する総合的なリーダーボードであるOpenVLM Leaderboardをホストする。
ツールキットはhttps://github.com/open-compass/VLMEvalKitでリリースされ、アクティブにメンテナンスされている。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models [1.3535643703577176]
MultiMedEvalは、大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットである。
6つのマルチモーダルタスクでモデルのパフォーマンスを総合的に評価し、23以上のデータセットを実行し、11以上の医療ドメインにまたがる。
簡単なインターフェースとセットアッププロセスを備えたPythonツールキットをオープンソースとして公開し、わずか数行のコードで任意のVLMの評価を可能にしました。
論文 参考訳(メタデータ) (2024-02-14T15:49:08Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z) - PiML Toolbox for Interpretable Machine Learning Model Development and
Diagnostics [10.635578367440162]
PiMLは、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。
ローコードモードとハイコードモードの両方で、データパイプライン、モデルのトレーニングとチューニング、モデルの解釈と説明を含む機械学習で設計されている。
論文 参考訳(メタデータ) (2023-05-07T08:19:07Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval
Models [5.725477071353354]
クロスモーダル検索は、画像、テキスト、ビデオなどのモダリティにまたがるクエリの関連結果を取得するための正確なモデルに依存している。
DIMEは、マルチモーダルデータセット、訓練されたモデル、およびデータプリプロセッサを処理するモダリティに依存しないツールである。
論文 参考訳(メタデータ) (2020-10-19T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。