論文の概要: NExT-Chat: An LMM for Chat, Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2311.04498v1
- Date: Wed, 8 Nov 2023 07:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:52:43.827323
- Title: NExT-Chat: An LMM for Chat, Detection and Segmentation
- Title(参考訳): NExT-Chat: チャット、検出、セグメンテーションのためのLMM
- Authors: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
- Abstract要約: 本稿では,ピクセル2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを提案する。
このような埋め込みに基づく位置モデリングは、ローカライズタスクにおける既存のプラクティスの利用を可能にする。
NExT-Chatという名前のLMMをトレーニングし、視覚的接地、領域キャプション、接地推論などの複数のタスクを処理できることを実証する。
- 参考スコア(独自算出の注目度): 63.02475379951106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pixel2seq). In this paper, we introduce a novel paradigm for object location
modeling called pixel2emb method, where we ask the LMM to output the location
embeddings and then decoded by different decoders. This paradigm allows for
different location formats (such as bounding boxes and masks) to be used in
multimodal conversations Furthermore, this kind of embedding based location
modeling enables the utilization of existing practices in localization tasks,
such as detection and segmentation. In scenarios with limited resources, our
pixel2emb demonstrates superior performance compared to existing
state-of-the-art (SOTA) approaches in both the location input and output tasks
under fair comparison. Leveraging the proposed pixel2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region caption, and grounded reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。
視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(ピクセル2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。
本稿では,Pixel2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し,LMMに位置埋め込みを出力させ,異なるデコーダでデコードする。
このパラダイムでは、異なる位置フォーマット(バウンディングボックスやマスクなど)をマルチモーダルな会話で使用できるだけでなく、このような組み込みベースのロケーションモデリングによって、検出やセグメンテーションといったローカライゼーションタスクにおける既存のプラクティスの活用が可能になる。
資源が限られているシナリオでは、我々のピクセル2embは、位置入力と出力タスクの両方において、既存のSOTA(State-of-the-art)アプローチよりも優れた性能を示す。
提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地推論などの複数のタスクを処理可能であることを示す。
関連論文リスト
- M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - GLaMM: Pixel Grounding Large Multimodal Model [59.84473815326636]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal
Instruction-Following Models [64.43988773982852]
本稿では,複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesueを紹介した。
本研究では,複数の画像間の理解と推論におけるSparklesChatの有効性を検証した。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic [26.852628804626494]
人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。
この対話における自然な参照能力は、現在のマルチモーダル大言語モデルには残っていない。
本稿では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。
論文 参考訳(メタデータ) (2023-06-27T04:31:52Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and
Language Models [60.04060735194162]
本研究は,ビデオチャットGPTを導入することで,ビデオベースの会話の未探索領域に対処する。
ビデオ適応型ビジュアルエンコーダと大言語モデル(LLM)を融合したマルチモーダルモデルである。
このモデルは、ビデオに関する人間のような会話を理解し、生成することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。