論文の概要: Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2501.05767v1
- Date: Fri, 10 Jan 2025 07:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:44.368588
- Title: Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models
- Title(参考訳): Migician: マルチモーダル大言語モデルにおける自由形式のマルチイメージグラウンドの魔法を明らかにする
- Authors: You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun,
- Abstract要約: 複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
本モデルでは,既存のMLLMよりも21.61%,さらに大きな70Bモデルよりもはるかに優れたマルチイメージグラウンド機能を実現している。
- 参考スコア(独自算出の注目度): 79.59567114769513
- License:
- Abstract: The recent advancement of Multimodal Large Language Models (MLLMs) has significantly improved their fine-grained perception of single images and general comprehension across multiple images. However, existing MLLMs still face challenges in achieving precise grounding in complex multi-image scenarios. To address this, we first explore a Chain-of-Thought (CoT) framework that integrates single-image grounding with multi-image comprehension. While partially effective, it remains unstable and struggles to capture abstract visual information due to its non-end-to-end nature. Therefore, we introduce Migician, the first multi-image grounding model capable of performing free-form and accurate grounding across multiple images. To support this, we present the MGrounding-630k dataset, which comprises data for several multi-image grounding tasks derived from existing datasets, along with newly generated free-form grounding instruction-following data. Furthermore, we propose MIG-Bench, a comprehensive benchmark specifically designed for evaluating multi-image grounding capabilities. Experimental results demonstrate that our model achieves significantly superior multi-image grounding capabilities, outperforming the best existing MLLMs by 21.61% and even surpassing much larger 70B models. Our code, model, dataset, and benchmark are fully open-sourced.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩により、単一画像のきめ細かい認識と、複数の画像に対する一般的な理解が大幅に向上した。
しかし、既存のMLLMは複雑なマルチイメージのシナリオにおいて、正確な基礎化を実現する上で依然として課題に直面している。
この問題に対処するために、我々はまず、単一イメージの接地とマルチイメージの理解を統合するChain-of-Thought(CoT)フレームワークについて検討する。
部分的には効果があるものの、不安定なままであり、非エンドツーエンドの性質のために抽象的な視覚情報を捉えるのに苦労している。
そこで我々は,複数の画像にまたがって自由かつ正確なグラウンド化を行うことのできる,最初のマルチイメージグラウンドモデルであるMigicianを紹介した。
これをサポートするために、既存のデータセットから派生した複数のマルチイメージグラウンドタスクのデータと、新たに生成されたフリーフォームグラウンド命令フォローデータを含むMGrounding-630kデータセットを提案する。
さらに,マルチイメージグラウンド機能の評価に特化して設計された総合ベンチマークMIG-Benchを提案する。
実験結果から,既存のMLLMよりも21.61%,さらに大きな70Bモデルよりもはるかに優れたマルチイメージグラウンド機能を実現していることが示された。
私たちのコード、モデル、データセット、ベンチマークは完全にオープンソースです。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description [44.033701878979805]
本稿では,リモートセンシング画像記述のための属性誘導型textbfMulti-Granularity Instruction Multimodal Model (MGIMM)を提案する。
MGIMMはマルチモーダルモデルで視覚領域と対応するテキスト属性の一貫性を学習する。
我々は,38,320個の領域属性対と23,463個の画像詳細記述対からなるデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-07T07:53:14Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。