論文の概要: NExT-Chat: An LMM for Chat, Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2311.04498v4
- Date: Mon, 18 Dec 2023 12:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:28:34.459819
- Title: NExT-Chat: An LMM for Chat, Detection and Segmentation
- Title(参考訳): NExT-Chat: チャット、検出、セグメンテーションのためのLMM
- Authors: Ao Zhang, Yuan Yao, Wei Ji, Zhiyuan Liu, Tat-Seng Chua
- Abstract要約: pix2emb法を導入し、LMMに位置埋め込みを出力し、異なるデコーダでデコードする。
NExT-Chatという名前のLMMをトレーニングし、視覚的接地、領域キャプション、接地的推論といった複数のタスクを処理できることを実証する。
- 参考スコア(独自算出の注目度): 78.30612799235607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pix2seq). In this paper, we introduce a novel paradigm for object location
modeling called pix2emb method, where we ask the LMM to output the location
embeddings and then decode them with different decoders. This paradigm allows
us to use different location formats (such as bounding boxes and masks) in
multimodal conversations. Leveraging the proposed pix2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region captioning, and grounded reasoning. Comprehensive
experiments show the effectiveness of our NExT-Chat on various tasks, e.g.,
NExT-Chat (87.7) vs. Shikra (86.9) on POPE-Random, NExT-Chat (68.9) vs. LISA
(67.9) on referring expression segmentation task, and NExT-Chat (79.6) vs.
Kosmos-2 (62.3) on region caption task. The code and model are released at
https://github.com/NExT-ChatV/NExT-Chat.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。
視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(pix2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。
本稿では, pix2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し, LMMに位置埋め込みを出力させ, 異なるデコーダでデコードする。
このパラダイムは、マルチモーダルな会話で異なる場所フォーマット(バウンディングボックスやマスクなど)を使うことができる。
提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地的推論などの複数のタスクを処理可能であることを示す。
例えば、next-chat (87.7)対shikra (86.9)、next-chat (68.9)対lisa (67.9)、next-chat (79.6)対kosmos-2 (62.3)である。
コードとモデルはhttps://github.com/NExT-ChatV/NExT-Chatで公開されている。
関連論文リスト
- FuseChat: Knowledge Fusion of Chat Models [35.90957231731829]
チャットLLMの知識融合のための新しいフレームワークを提案する。
我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
論文 参考訳(メタデータ) (2024-08-15T07:37:24Z) - Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning [54.74986983905282]
コンテキスト内学習には多くの例があるが、新しいタスクを学ぶには有望だ。
基本的には事前トレーニング時に設定されたモデルのコンテキスト長によって制限される。
これにより、微調整なしで多くのショットを少ないトークンに圧縮する方法の必要性が生じる。
論文 参考訳(メタデータ) (2024-06-21T17:50:02Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic [26.852628804626494]
人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。
この対話における自然な参照能力は、現在のマルチモーダル大言語モデルには残っていない。
本稿では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。
論文 参考訳(メタデータ) (2023-06-27T04:31:52Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。