論文の概要: CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2407.16837v1
- Date: Tue, 23 Jul 2024 21:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:32:29.534061
- Title: CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs
- Title(参考訳): CompBench: マルチモーダルLLMの比較推論ベンチマーク
- Authors: Jihyung Kil, Zheda Mai, Justin Lee, Zihe Wang, Kerrie Cheng, Lemeng Wang, Ye Liu, Arpita Chowdhury, Wei-Lun Chao,
- Abstract要約: CompBenchはマルチモーダル大言語モデル(MLLM)の比較推論能力を評価するために設計されたベンチマークである。
CompBenchは、相対比較の8次元をカバーする視覚的指向の質問を通じて画像をマイニングし、ペア化する。
我々はCompBenchを用いて、GPT-4V(ision), Gemini-Pro, LLaVA-1.6を含む最近のMLLMを評価する。
- 参考スコア(独自算出の注目度): 24.944100288489853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to compare objects, scenes, or situations is crucial for effective decision-making and problem-solving in everyday life. For instance, comparing the freshness of apples enables better choices during grocery shopping, while comparing sofa designs helps optimize the aesthetics of our living space. Despite its significance, the comparative capability is largely unexplored in artificial general intelligence (AGI). In this paper, we introduce CompBench, a benchmark designed to evaluate the comparative reasoning capability of multimodal large language models (MLLMs). CompBench mines and pairs images through visually oriented questions covering eight dimensions of relative comparison: visual attribute, existence, state, emotion, temporality, spatiality, quantity, and quality. We curate a collection of around 40K image pairs using metadata from diverse vision datasets and CLIP similarity scores. These image pairs span a broad array of visual domains, including animals, fashion, sports, and both outdoor and indoor scenes. The questions are carefully crafted to discern relative characteristics between two images and are labeled by human annotators for accuracy and relevance. We use CompBench to evaluate recent MLLMs, including GPT-4V(ision), Gemini-Pro, and LLaVA-1.6. Our results reveal notable shortcomings in their comparative abilities. We believe CompBench not only sheds light on these limitations but also establishes a solid foundation for future enhancements in the comparative capability of MLLMs.
- Abstract(参考訳): オブジェクト、シーン、状況を比較する能力は、日常生活における効果的な意思決定と問題解決に不可欠である。
例えば、リンゴの鮮度を比較することで、食料品の買い物中により良い選択ができる一方で、ソファのデザインを比較することは、私たちの生活空間の美学を最適化するのに役立ちます。
その重要性にもかかわらず、比較能力は人工知能(AGI)ではほとんど探索されていない。
本稿では,マルチモーダル大規模言語モデル(MLLM)の比較推論能力を評価するためのベンチマークであるCompBenchを紹介する。
CompBenchは、視覚的属性、存在、状態、感情、時間性、空間性、量、品質の8つの次元を網羅する視覚的指向の質問を通して画像をマイニングし、ペア化する。
様々な視覚データセットとCLIP類似度スコアのメタデータを用いて、約40Kの画像ペアのコレクションをキュレートする。
これらのイメージペアは、動物、ファッション、スポーツ、屋外と屋内の両方のシーンを含む、幅広い視覚領域にまたがる。
これらの質問は、2つの画像間の相対的な特徴を識別するために慎重に作成され、精度と関連性のために人間のアノテータによってラベル付けされる。
我々はCompBenchを用いて、GPT-4V(ision), Gemini-Pro, LLaVA-1.6を含む最近のMLLMを評価する。
以上の結果から, 比較能力に顕著な欠点が認められた。
CompBench はこれらの制限に光を当てるだけでなく,MLLM の比較能力の向上のための基盤も確立している,と私たちは信じています。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models [11.13176491856196]
本稿では,コネクタがマルチモーダル大言語モデル(MLLM)の性能に与える影響を系統的に検討する。
コネクタを特徴保存型と特徴圧縮型に分類する。
本研究は,視覚情報の詳細な保持能力により,細粒度認知タスクにおいて,特徴保存コネクタが優れていることを明らかにした。
対照的に、機能圧縮コネクタは、きめ細かな知覚タスクでは効果が低いが、顕著な速度優位性を提供し、きめ細かな知覚タスクや強調タスクでは相容れない。
論文 参考訳(メタデータ) (2024-10-09T10:53:18Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-09T17:25:47Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。