Fugu-MT 論文翻訳(概要): Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs

論文の概要: Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs

arxiv url: http://arxiv.org/abs/2501.04670v3
Date: Wed, 09 Jul 2025 08:04:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 15:30:51.993552
Title: Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs
Title（参考訳）: それらは同じか? マルチモーダルLDMの視覚的対応の欠点を探る
Authors: Yikang Zhou, Tao Zhang, Shilin Xu, Shihao Chen, Qianyu Zhou, Yunhai Tong, Shunping Ji, Jiangning Zhang, Lu Qi, Xiangtai Li,
Abstract要約: 我々は,30種類のマルチモーダル大言語モデル (MLLM) に対して,相当なベンチマークを行うベンチマークを構築した。私たちの知る限り、MLLMコミュニティにとってこれが初めての視覚対応データセットとベンチマークです。 CoLVA-InternVL2-4Bは、GPT-4oと最高のオープンソースMLLMであるQwen2VL-72Bをそれぞれ7.15%、OAは11.72%、MMVMベンチマークで49.80%の精度(OA)を達成した。
参考スコア（独自算出の注目度）: 42.57007182613632
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in multimodal large language models (MLLM) have shown a strong ability in visual perception, reasoning abilities, and vision-language understanding. However, the visual matching ability of MLLMs is rarely studied, despite finding the visual correspondence of objects is essential in computer vision. Our research reveals that the matching capabilities in recent MLLMs still exhibit systematic shortcomings, even with current strong MLLMs models, GPT-4o. In particular, we construct a Multimodal Visual Matching (MMVM) benchmark to fairly benchmark over 30 different MLLMs. The MMVM benchmark is built from 15 open-source datasets and Internet videos with manual annotation. We categorize the data samples of MMVM benchmark into eight aspects based on the required cues and capabilities to more comprehensively evaluate and analyze current MLLMs. In addition, we have designed an automatic annotation pipeline to generate the MMVM SFT dataset, including 220K visual matching data with reasoning annotation. To our knowledge, this is the first visual corresponding dataset and benchmark for the MLLM community. Finally, we present CoLVA, a novel contrastive MLLM with two novel technical designs: fine-grained vision expert with object-level contrastive learning and instruction augmentation strategy. The former learns instance discriminative tokens, while the latter further improves instruction following ability. CoLVA-InternVL2-4B achieves an overall accuracy (OA) of 49.80\% on the MMVM benchmark, surpassing GPT-4o and the best open-source MLLM, Qwen2VL-72B, by 7.15\% and 11.72\% OA, respectively. These results demonstrate the effectiveness of our MMVM SFT dataset and our novel technical designs. Code, benchmark, dataset, and models will be released.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)の最近の進歩は、視覚知覚、推論能力、視覚言語理解において強力な能力を示している。しかし、コンピュータビジョンにおいて、物体の視覚的対応が不可欠であるにもかかわらず、MLLMの視覚的マッチング能力についてはほとんど研究されていない。近年のMLLMのマッチング能力は,現行の強力なMLLMモデルであるGPT-4oでさえも,体系的な欠点が残っていることが明らかとなった。特に,Multimodal Visual Matching (MMVM) ベンチマークを構築し,30種類のMLLMに対して相当なベンチマークを行う。 MMVMベンチマークは15のオープンソースデータセットと手動アノテーションを備えたインターネットビデオから構築されている。我々は,MMVMベンチマークのデータサンプルを,現在のMLLMをより包括的に評価し分析するために必要な手がかりと能力に基づいて,8つの側面に分類する。さらに220Kの視覚的マッチングデータと推論アノテーションを含むMMVM SFTデータセットを生成するための自動アノテーションパイプラインを設計した。私たちの知る限り、MLLMコミュニティにとってこれが初めての視覚対応データセットとベンチマークです。最後に、オブジェクトレベルのコントラスト学習と命令強化戦略を備えた細粒度ビジョンエキスパートという、2つの新しい技術設計を備えた、新しいコントラスト型MLLMであるCoLVAを紹介する。前者はインスタンス識別トークンを学習し、後者は命令追従能力をさらに改善する。 CoLVA-InternVL2-4B は MMVM ベンチマークで 49.80 % の総合精度(OA)を達成し、それぞれ GPT-4o を上回り、最高のオープンソース MLLM Qwen2VL-72B を7.15 %、そして 11.72 % OA を上回ります。これらの結果は,MMVM SFTデータセットと新しい技術設計の有効性を示すものである。コード、ベンチマーク、データセット、モデルがリリースされる。

関連論文リスト

Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文参考訳（メタデータ） (2025-06-12T01:44:46Z)
Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。 MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文参考訳（メタデータ） (2025-06-02T04:00:35Z)
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。 MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文参考訳（メタデータ） (2024-06-25T17:55:11Z)
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-06-24T20:29:16Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文参考訳（メタデータ） (2024-01-17T04:43:45Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。