論文の概要: ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
- arxiv url: http://arxiv.org/abs/2411.18363v1
- Date: Wed, 27 Nov 2024 14:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:26.391989
- Title: ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
- Title(参考訳): ChatRex: 共同認識と理解のためのマルチモーダルLLMのモデリング
- Authors: Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang,
- Abstract要約: 認識設計を分離したMLLMであるChatRexを紹介する。
データの観点からは、完全に自動化されたデータエンジンを構築します。
ChatRexはマルチモーダル理解性能を維持しながら、強い知覚能力を示す。
- 参考スコア(独自算出の注目度): 16.535876222927538
- License:
- Abstract: Perception and understanding are two pillars of computer vision. While multimodal large language models (MLLM) have demonstrated remarkable visual understanding capabilities, they arguably lack accurate perception abilities, e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on the COCO dataset, limiting many tasks requiring the combination of perception and understanding. In this work, we aim to bridge this perception gap from both model designing and data development perspectives. We first introduce ChatRex, an MLLM with a decoupled perception design. Instead of having the LLM directly predict box coordinates, we feed the output boxes from a universal proposal network into the LLM, allowing it to output the corresponding box indices to represent its detection results, turning the regression task into a retrieval-based task that LLM handles more proficiently. From the data perspective, we build a fully automated data engine and construct the Rexverse-2M dataset which possesses multiple granularities to support the joint training of perception and understanding. After standard two-stage training, ChatRex demonstrates strong perception capabilities while preserving multimodal understanding performance. The combination of these two capabilities simultaneously unlocks many attractive applications, demonstrating the complementary roles of both perception and understanding in MLLM. Code is available at \url{https://github.com/IDEA-Research/ChatRex}.
- Abstract(参考訳): 知覚と理解はコンピュータビジョンの2つの柱である。
MLLM(Multimodal large language model)は目覚ましい視覚的理解能力を示しているが、正確な知覚能力は欠如している。例えば、最先端のQwen2-VLはCOCOデータセット上で43.9リコール率しか達成せず、知覚と理解の組み合わせを必要とする多くのタスクを制限している。
本研究では,モデル設計とデータ開発の両面から,この認識ギャップを埋めることを目的としている。
最初にChatRexを紹介します。これは、切り離された知覚設計を持つMLLMです。
LLMにボックス座標を直接予測させる代わりに、普遍的な提案ネットワークから出力ボックスをLSMに供給し、対応するボックスインデックスを出力してその検出結果を表現できるようにし、回帰タスクをLLMがより熟練的に扱う検索ベースタスクに変換する。
データの観点から、完全に自動化されたデータエンジンを構築し、認識と理解の共同トレーニングを支援するために、複数の粒度を持つRexverse-2Mデータセットを構築します。
標準的な2段階のトレーニングの後、ChatRexはマルチモーダル理解性能を維持しながら、強い知覚能力を示す。
これら2つの能力を組み合わせることで、MLLMにおける知覚と理解の相補的な役割を実証し、多くの魅力的なアプリケーションを同時に解き放つ。
コードは \url{https://github.com/IDEA-Research/ChatRex} で入手できる。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MLLMReID: Multimodal Large Language Model-based Person Re-identification [14.68436005777866]
MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。
本稿では,ReIDの課題に適合させる方法について検討する。
論文 参考訳(メタデータ) (2024-01-24T03:07:26Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。