論文の概要: Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2501.04670v2
- Date: Fri, 31 Jan 2025 16:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:58.703806
- Title: Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs
- Title(参考訳): それらは同じか? マルチモーダルLDMの視覚的対応の欠点を探る
- Authors: Yikang Zhou, Tao Zhang, Shilin Xu, Shihao Chen, Qianyu Zhou, Yunhai Tong, Shunping Ji, Jiangning Zhang, Xiangtai Li, Lu Qi,
- Abstract要約: 我々は,30種類のMLLMに対して,相当なベンチマークを行うベンチマークを構築した。
オブジェクトレベルのコントラスト学習と命令強化戦略を備えた新しいコントラスト型MLLMであるCoLVAを提案する。
その結果,CoLVAはMMVMベンチマークで51.06%の総合精度(OA)を達成し,それぞれGPT-4o,ベースラインが8.41%,OA23.58%を上回った。
- 参考スコア(独自算出の注目度): 42.57007182613631
- License:
- Abstract: Recent advancements in multimodal models have shown a strong ability in visual perception, reasoning abilities, and vision-language understanding. However, studies on visual matching ability are missing, where finding the visual correspondence of objects is essential in vision research. Our research reveals that the matching capabilities in recent multimodal LLMs (MLLMs) still exhibit systematic shortcomings, even with current strong MLLMs models, GPT-4o. In particular, we construct a Multimodal Visual Matching (MMVM) benchmark to fairly benchmark over 30 different MLLMs. The MMVM benchmark is built from 15 open-source datasets and Internet videos with manual annotation. We categorize the data samples of MMVM benchmark into eight aspects based on the required cues and capabilities to more comprehensively evaluate and analyze current MLLMs. In addition, we have designed an automatic annotation pipeline to generate the MMVM SFT dataset, including 220K visual matching data with reasoning annotation. Finally, we present CoLVA, a novel contrastive MLLM with two novel technical designs: fine-grained vision expert with object-level contrastive learning and instruction augmentation strategy. CoLVA achieves 51.06\% overall accuracy (OA) on the MMVM benchmark, surpassing GPT-4o and baseline by 8.41\% and 23.58\% OA, respectively. The results show the effectiveness of our MMVM SFT dataset and our novel technical designs. Code, benchmark, dataset, and models are available at https://github.com/zhouyiks/CoLVA.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、視覚知覚、推論能力、視覚言語理解において強力な能力を示している。
しかし、視覚的マッチング能力の研究は欠落しており、視覚研究において物体の視覚的対応を見つけることが不可欠である。
本研究により,近年のMLLM (Multimodal LLMs) におけるマッチング能力は,現行の強力なMLLMモデルであるGPT-4oにおいても,体系的な欠点が残っていることが明らかとなった。
特に,Multimodal Visual Matching (MMVM) ベンチマークを構築し,30種類のMLLMに対して相当なベンチマークを行う。
MMVMベンチマークは15のオープンソースデータセットと手動アノテーションを備えたインターネットビデオから構築されている。
我々は,MMVMベンチマークのデータサンプルを,現在のMLLMをより包括的に評価し分析するために必要な手がかりと能力に基づいて,8つの側面に分類する。
さらに220Kの視覚的マッチングデータと推論アノテーションを含むMMVM SFTデータセットを生成するための自動アノテーションパイプラインを設計した。
最後に、オブジェクトレベルのコントラスト学習と命令強化戦略を備えた細粒度ビジョンエキスパートという、2つの新しい技術設計を備えた、新しいコントラスト型MLLMであるCoLVAを紹介する。
CoLVAは、MMVMベンチマークで51.06\%の総合精度(OA)を達成し、それぞれGPT-4oとベースラインを8.41\%、23.58\%のOAで上回っている。
その結果,MMVM SFTデータセットと新しい技術設計の有効性が示された。
コード、ベンチマーク、データセット、モデルはhttps://github.com/shuyiks/CoLVA.orgで公開されている。
関連論文リスト
- MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。
MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。
さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文 参考訳(メタデータ) (2024-06-25T17:55:11Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。