論文の概要: LMM-Det: Make Large Multimodal Models Excel in Object Detection
- arxiv url: http://arxiv.org/abs/2507.18300v1
- Date: Thu, 24 Jul 2025 11:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.515728
- Title: LMM-Det: Make Large Multimodal Models Excel in Object Detection
- Title(参考訳): LMM-Det:オブジェクト検出における大規模マルチモーダルモデルExcelの作成
- Authors: Jincheng Li, Chunyu Xie, Ji Ao, Dawei Leng, Yuhui Yin,
- Abstract要約: 本研究では,LMM-Detを提案する。LMM-Detは,大規模なマルチモーダルモデルを用いて,特定の検出モジュールを依存せずに,バニラオブジェクトの検出を行う。
具体的には,大規模なマルチモーダルモデルとオブジェクト検出が一致した場合の総合的な探索分析を行い,リコールレートが専門的検出モデルと比較して著しく低下することを明らかにする。
大規模なマルチモーダルモデルでは、余分な検出モジュールを使わずに検出能力を有する。
- 参考スコア(独自算出の注目度): 0.62914438169038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have garnered wide-spread attention and interest within the artificial intelligence research and industrial communities, owing to their remarkable capability in multimodal understanding, reasoning, and in-context learning, among others. While LMMs have demonstrated promising results in tackling multimodal tasks like image captioning, visual question answering, and visual grounding, the object detection capabilities of LMMs exhibit a significant gap compared to specialist detectors. To bridge the gap, we depart from the conventional methods of integrating heavy detectors with LMMs and propose LMM-Det, a simple yet effective approach that leverages a Large Multimodal Model for vanilla object Detection without relying on specialized detection modules. Specifically, we conduct a comprehensive exploratory analysis when a large multimodal model meets with object detection, revealing that the recall rate degrades significantly compared with specialist detection models. To mitigate this, we propose to increase the recall rate by introducing data distribution adjustment and inference optimization tailored for object detection. We re-organize the instruction conversations to enhance the object detection capabilities of large multimodal models. We claim that a large multimodal model possesses detection capability without any extra detection modules. Extensive experiments support our claim and show the effectiveness of the versatile LMM-Det. The datasets, models, and codes are available at https://github.com/360CVGroup/LMM-Det.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、多モーダル理解、推論、文脈内学習などにおいて顕著な能力のために、人工知能研究や産業コミュニティにおいて広く注目を集め、関心を集めてきた。
LMMは、画像キャプション、視覚的質問応答、視覚的接地といったマルチモーダルなタスクに対処する上で有望な結果を示してきたが、LMMの物体検出能力は、スペシャリスト検出器と比較して大きな差がある。
このギャップを埋めるために、我々は、重検出器をLMMと統合する従来の方法から離れ、LMM-Detを提案する。
具体的には,大規模なマルチモーダルモデルとオブジェクト検出が一致した場合の総合的な探索分析を行い,リコールレートが専門的検出モデルと比較して著しく低下することを明らかにする。
これを軽減するために,オブジェクト検出に適したデータ分散調整と推論最適化を導入することでリコール率を向上させることを提案する。
我々は,大規模マルチモーダルモデルのオブジェクト検出能力を高めるために,命令会話を再編成する。
大規模なマルチモーダルモデルでは、余分な検出モジュールを使わずに検出能力を有する。
LMM-Detの有効性を示すため,広範囲な実験を行った。
データセット、モデル、コードはhttps://github.com/360CVGroup/LMM-Det.comで入手できる。
関連論文リスト
- Taming the Untamed: Graph-Based Knowledge Retrieval and Reasoning for MLLMs to Conquer the Unknown [14.8657860984074]
マルチモーダルな大言語モデル(MLLM)は、限られた関連する知識のため、ほとんど遭遇しないドメイン固有のタスクで失敗することが多い。
マルチモーダル・ナレッジグラフ (MH-MMKG) を構築し, マルチモーダルと複雑な実体関係を包含する。
また,MH-MMKGに基づく複雑な知識検索と推論のためのモデルの能力を評価するために,一連の挑戦的なクエリを設計する。
論文 参考訳(メタデータ) (2025-06-21T05:01:02Z) - A Simple Aerial Detection Baseline of Multimodal Language Models [33.91030170608569]
LMMRotateという,マルチモーダル空中検出を初めて適用するための簡単なベースラインを提案する。
オープンソースの汎用性を微調整してベースラインを構築し,従来の検出器に匹敵する優れた検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T18:09:22Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、様々な視覚言語(VL)タスクで優れている。
高い性能にもかかわらず、LMMの生成出力は視覚言語分類タスクに特化していない。
LMMの潜在空間からマルチモーダル特徴抽出を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - CaMML: Context-Aware Multimodal Learner for Large Models [16.30752006781618]
大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を導入する。
CaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合し、類似したドメイン固有の最新の情報から知識を引き出すことができるように設計されている。
CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
論文 参考訳(メタデータ) (2024-01-06T07:54:58Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。