論文の概要: Can Multimodal Large Language Models Truly Understand Small Objects?
- arxiv url: http://arxiv.org/abs/2604.22884v1
- Date: Fri, 24 Apr 2026 08:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.029108
- Title: Can Multimodal Large Language Models Truly Understand Small Objects?
- Title(参考訳): マルチモーダルな大言語モデルは小さなオブジェクトを真に理解できるか?
- Authors: Fujun Han, Junan Chen, Xintong Zhu, Jingqi Ye, Xuanjie Mao, Tao Chen, Peng Ye,
- Abstract要約: 我々は、既存のMLLMの小さなオブジェクト理解能力を調べるための、最初の、そして包括的なベンチマークであるSOUBenchを紹介する。
我々は,15種類の最先端MLLMの総合評価を行い,その弱さを明らかにする。
さらに,11,226組のVQAペアを持つマルチモーダルトレーニングデータセットであるSOU-Trainを開発し,MLLMのSOU性能を向上させる。
- 参考スコア(独自算出の注目度): 9.082671977975483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown promising potential in diverse understanding tasks, e.g., image and video analysis, math and physics olympiads. However, they remain blank and unexplored for Small Object Understanding (SOU) tasks. To fill this gap, we introduce SOUBench, the first and comprehensive benchmark for exploring the small objects understanding capability of existing MLLMs. Specifically, we first design an effective and automatic visual question-answer generation strategy, constructing a new SOU-VQA evaluation dataset, with 18,204 VQA pairs, six relevant sub-tasks, and three dominant scenarios (i.e., Driving, Aerial, and Underwater). Then, we conduct a comprehensive evaluation on 15 state-of-the-art MLLMs and reveal their weak capabilities in small object understanding. Furthermore, we develop SOU-Train, a multimodal training dataset with 11,226 VQA pairs, to improve the SOU capabilities of MLLMs. Through supervising fine-tuning of the latest MLLM, we demonstrate that SOU-Train can effectively enhance the latest MLLM's ability to understand small objects. Comprehensive experimental results demonstrate that, the proposed SOUBench, along with the SOU-VQA and SOU-Train datasets, provides a crucial empirical foundation to the community for further developing models with enhanced small object understanding capabilities. Datasets and Code: https://github.com/Hanfj-X/SOU.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,画像・ビデオ解析,数学・物理オリンピックなどの多様な理解タスクにおいて有望な可能性を示している。
しかし、それらは空白のままであり、Small Object Understanding (SOU)タスクのために探索されていない。
このギャップを埋めるために、既存のMLLMの小さなオブジェクト理解能力を探索する最初の、そして包括的なベンチマークであるSOUBenchを紹介します。
具体的には,まず,18,204組のVQAペアと6つの関連するサブタスク,および3つの支配的シナリオ(ドライビング,エアリアル,アンダーウォーター)を備えた新しいSOU-VQA評価データセットを構築する。
そして,15種類の最先端MLLMの総合評価を行い,その弱点を明らかにする。
さらに,11,226組のVQAペアを持つマルチモーダルトレーニングデータセットであるSOU-Trainを開発し,MLLMのSOU性能を向上させる。
最新のMLLMの微調整を監督することにより、SOU-Trainが最新のMLLMの小さな物体を理解する能力を効果的に向上できることを実証する。
総合的な実験結果から,提案した SOUBench と SOU-VQA と SOU-Train のデータセットは,より小さなオブジェクト理解能力を持つモデルをさらに発展させる上で,コミュニティにとって重要な実証的基盤となることが示されている。
データセットとコード:https://github.com/Hanfj-X/SOU.com
関連論文リスト
- Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。