論文の概要: Improve MLLM Benchmark Efficiency through Interview
- arxiv url: http://arxiv.org/abs/2506.00883v1
- Date: Sun, 01 Jun 2025 07:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.690393
- Title: Improve MLLM Benchmark Efficiency through Interview
- Title(参考訳): インタビューによるMLLMベンチマーク効率の改善
- Authors: Farong Wen, Yijin Guo, Junying Wang, Jiaohao Xiao, Yingjie Zhou, Chunyi Li, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 大規模データに対する完全なカバレッジのQ&Aテストは、リソース集約的で時間を要する。
より少ない質問を解き放つことで,MLLMのパフォーマンス指標を迅速に取得することを目的としたMLLMインタビュー戦略を提案する。
- 参考スコア(独自算出の注目度): 32.557448123464226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Multimodal Large Language Models (MLLM) has led to a wide range of MLLM applications, and a number of benchmark datasets have sprung up in order to assess MLLM abilities. However, full-coverage Q&A testing on large-scale data is resource-intensive and time-consuming. To address this issue, we propose the MLLM Interview (MITV) strategy, which aims to quickly obtain MLLM performance metrics by quizzing fewer question. First, First, we constructed the interview dataset, which was built on an existing MLLM assessment dataset, by adding difficulty labels based on the performance of some typical MLLMs in this dataset. Second, we propose an MLLM Interview strategy, which obtains an initial performance situation of the large model by quizzing a small number of topics and then continuously tries to test the model's limits. Through extensive experiments, the result shows that the MITV strategy proposed in this paper performs well on MLLM benchmark datasets, and it is able to obtain the model evaluation capability faster through a small number of questions and answers.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な開発により、幅広いMLLMアプリケーションが開発され、MLLM能力を評価するために多くのベンチマークデータセットが登場した。
しかし、大規模データに対する完全なQ&Aテストはリソース集約的で時間を要する。
この問題に対処するために,MLLMインタビュー(MITV)戦略を提案する。
まず,既存のMLLM評価データセットをベースとしたインタビューデータセットを構築し,このデータセットに典型的なMLLMの性能に基づく難易度ラベルを付加した。
次に,MLLMインタビュー戦略を提案する。MLLMインタビュー戦略は,少数のトピックをクイズし,モデルの限界を連続的にテストすることによって,大規模モデルの初期性能状況を取得する。
本研究で提案したMITV戦略は, MLLMベンチマークデータセットで良好に機能し, 少数の質問や回答によって, モデル評価能力の高速化が図られている。
関連論文リスト
- LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。