論文の概要: VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
- arxiv url: http://arxiv.org/abs/2407.11691v2
- Date: Wed, 11 Sep 2024 17:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:32:18.238264
- Title: VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
- Title(参考訳): VLMEvalKit: 大規模なマルチモーダルモデルを評価するオープンソースツールキット
- Authors: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Amit Agarwal, Zhe Chen, Mo Li, Yubo Ma, Hailong Sun, Xiangyu Zhao, Junbo Cui, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen,
- Abstract要約: PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
- 参考スコア(独自算出の注目度): 89.63342806812413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VLMEvalKit: an open-source toolkit for evaluating large multi-modality models based on PyTorch. The toolkit aims to provide a user-friendly and comprehensive framework for researchers and developers to evaluate existing multi-modality models and publish reproducible evaluation results. In VLMEvalKit, we implement over 70 different large multi-modality models, including both proprietary APIs and open-source models, as well as more than 20 different multi-modal benchmarks. By implementing a single interface, new models can be easily added to the toolkit, while the toolkit automatically handles the remaining workloads, including data preparation, distributed inference, prediction post-processing, and metric calculation. Although the toolkit is currently mainly used for evaluating large vision-language models, its design is compatible with future updates that incorporate additional modalities, such as audio and video. Based on the evaluation results obtained with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to track the progress of multi-modality learning research. The toolkit is released at https://github.com/open-compass/VLMEvalKit and is actively maintained.
- Abstract(参考訳): 本稿では,PyTorchをベースとした大規模マルチモーダルモデル評価用オープンソースツールキットVLMEvalKitを提案する。
このツールキットは、研究者や開発者が既存のマルチモダリティモデルを評価し、再現可能な評価結果を公開するための、ユーザフレンドリで包括的なフレームワークを提供することを目的としている。
VLMEvalKitでは、プロプライエタリなAPIとオープンソースモデルの両方を含む70以上の大規模なマルチモーダルモデルと、20以上の異なるマルチモーダルベンチマークを実装しています。
単一のインターフェースを実装することで、ツールキットに新しいモデルを簡単に追加でき、ツールキットはデータ準備、分散推論、予測後処理、メトリック計算を含む残りのワークロードを自動的に処理する。
このツールキットは、現在主に大きな視覚言語モデルの評価に使われているが、オーディオやビデオなどの追加のモダリティを含む将来のアップデートと互換性がある。
このツールキットを用いて得られた評価結果に基づいて,マルチモーダル学習研究の進展を追跡する総合的なリーダーボードであるOpenVLM Leaderboardをホストする。
ツールキットはhttps://github.com/open-compass/VLMEvalKitでリリースされ、アクティブにメンテナンスされている。
関連論文リスト
- Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
そこで我々は,Collaborative Learning-based Tool Retrieval approach, COLTを提案する。
COLTはユーザクエリとツール記述のセマンティックな類似性をキャプチャする。
また、ツールの協調的な情報も考慮に入れている。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models [1.3535643703577176]
MultiMedEvalは、大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットである。
6つのマルチモーダルタスクでモデルのパフォーマンスを総合的に評価し、23以上のデータセットを実行し、11以上の医療ドメインにまたがる。
簡単なインターフェースとセットアッププロセスを備えたPythonツールキットをオープンソースとして公開し、わずか数行のコードで任意のVLMの評価を可能にしました。
論文 参考訳(メタデータ) (2024-02-14T15:49:08Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z) - PiML Toolbox for Interpretable Machine Learning Model Development and
Diagnostics [10.635578367440162]
PiMLは、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。
ローコードモードとハイコードモードの両方で、データパイプライン、モデルのトレーニングとチューニング、モデルの解釈と説明を含む機械学習で設計されている。
論文 参考訳(メタデータ) (2023-05-07T08:19:07Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and
Toolkit [0.0]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval
Models [5.725477071353354]
クロスモーダル検索は、画像、テキスト、ビデオなどのモダリティにまたがるクエリの関連結果を取得するための正確なモデルに依存している。
DIMEは、マルチモーダルデータセット、訓練されたモデル、およびデータプリプロセッサを処理するモダリティに依存しないツールである。
論文 参考訳(メタデータ) (2020-10-19T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。