論文の概要: NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2403.01777v2
- Date: Tue, 5 Mar 2024 18:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:44:30.439807
- Title: NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models
- Title(参考訳): NPHardEval4V:マルチモーダル大言語モデルの動的推論ベンチマーク
- Authors: Lizhou Fan, Wenyue Hua, Xiang Li, Kaijie Zhu, Mingyu Jin, Lingyao Li,
Haoyang Ling, Jinkui Chi, Jindong Wang, Xin Ma, Yongfeng Zhang
- Abstract要約: MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
- 参考スコア(独自算出の注目度): 34.91372939329467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the reasoning capabilities of Multimodal Large Language Models
(MLLMs) is an important area of research. In this study, we introduce a dynamic
benchmark, NPHardEval4V, aimed at addressing the existing gaps in evaluating
the pure reasoning abilities of MLLMs. Our benchmark aims to provide a venue to
disentangle the effect of various factors such as image recognition and
instruction following, from the overall performance of the models, allowing us
to focus solely on evaluating their reasoning abilities. It is built by
converting textual description of questions from NPHardEval to image
representations. Our findings reveal significant discrepancies in reasoning
abilities across different models and highlight the relatively weak performance
of MLLMs compared to LLMs in terms of reasoning. We also investigate the impact
of different prompting styles, including visual, text, and combined visual and
text prompts, on the reasoning abilities of MLLMs, demonstrating the different
impacts of multimodal inputs in model performance. Unlike traditional
benchmarks, which focus primarily on static evaluations, our benchmark will be
updated monthly to prevent overfitting and ensure a more authentic and
fine-grained evaluation of the models. We believe that this benchmark can aid
in understanding and guide the further development of reasoning abilities in
MLLMs. The benchmark dataset and code are available at
https://github.com/lizhouf/NPHardEval4V
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の推論能力を理解することは重要な研究分野である。
本研究では,MLLMの純粋推論能力の評価において,既存のギャップに対処することを目的とした動的ベンチマーク NPHardEval4V を提案する。
本ベンチマークは,モデル全体の性能から,画像認識や後続命令などの様々な要因の影響を解消し,推論能力の評価にのみ焦点をあてる場を提供することを目的としている。
NPHardEvalからの質問のテキスト記述を画像表現に変換することで構築される。
本研究により,異なるモデル間での推論能力の相違が明らかとなり,MLLMの比較的弱い性能が示唆された。
また,マルチモーダル入力がモデル性能に与える影響を示すため,mllmsの推論能力に視覚,テキスト,視覚とテキストの組み合わせを含む様々なプロンプトスタイルが与える影響について検討した。
主に静的評価に焦点を当てた従来のベンチマークとは異なり、我々のベンチマークは、オーバーフィットを防止し、モデルのより正確できめ細かい評価を保証するために毎月更新される。
このベンチマークはMLLMにおける推論能力のさらなる発展の理解と指導に役立つと考えている。
ベンチマークデータセットとコードはhttps://github.com/lizhouf/nphardeval4vで入手できる。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Enhancing Multimodal Large Language Models with Vision Detection Models:
An Empirical Study [34.94523378724141]
本稿では,SOTA(State-of-the-art Object Detection)と光文字認識モデルを用いたMLLMの強化に関する実証的研究を行う。
我々は,LLaVA-1.5,DINO,PaddleOCRv2などのモデルを用いて系統的な実験を行い,MLLMの性能を向上するだけでなく,元の強みも維持することを示した。
その結果、MLLMは10ベンチマーク中9ベンチマークでSOTAモデルを上回っ、正規化平均スコアで最大12.99%向上した。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V [44.0908994116986]
視覚言語モデル(MLLM)は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
MLLM-Benchは、Vicunaにインスパイアされた革新的なベンチマークで、さまざまなシナリオにまたがる。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in
Video-Language Models [28.305932427801682]
ViLMA(ビデオ言語モデルアセスメント)は,VidLMのきめ細かい機能を評価するタスク非依存のベンチマークである。
ViLMAは、コントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにしている。
静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
論文 参考訳(メタデータ) (2023-11-13T02:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。