Fugu-MT 論文翻訳(概要): NExT-Chat: An LMM for Chat, Detection and Segmentation

論文の概要: NExT-Chat: An LMM for Chat, Detection and Segmentation

arxiv url: http://arxiv.org/abs/2311.04498v1
Date: Wed, 8 Nov 2023 07:15:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 16:52:43.827323
Title: NExT-Chat: An LMM for Chat, Detection and Segmentation
Title（参考訳）: NExT-Chat: チャット、検出、セグメンテーションのためのLMM
Authors: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
Abstract要約: 本稿では,ピクセル2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを提案する。このような埋め込みに基づく位置モデリングは、ローカライズタスクにおける既存のプラクティスの利用を可能にする。 NExT-Chatという名前のLMMをトレーニングし、視覚的接地、領域キャプション、接地推論などの複数のタスクを処理できることを実証する。
参考スコア（独自算出の注目度）: 63.02475379951106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(ピクセル2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。本稿では,Pixel2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し,LMMに位置埋め込みを出力させ,異なるデコーダでデコードする。このパラダイムでは、異なる位置フォーマット(バウンディングボックスやマスクなど)をマルチモーダルな会話で使用できるだけでなく、このような組み込みベースのロケーションモデリングによって、検出やセグメンテーションといったローカライゼーションタスクにおける既存のプラクティスの活用が可能になる。資源が限られているシナリオでは、我々のピクセル2embは、位置入力と出力タスクの両方において、既存のSOTA(State-of-the-art)アプローチよりも優れた性能を示す。提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地推論などの複数のタスクを処理可能であることを示す。

関連論文リスト

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding [16.535876222927538]
認識設計を分離したMLLMであるChatRexを紹介する。データの観点から、認識と理解の共同トレーニングを支援するために、完全に自動化されたデータエンジンを構築します。 ChatRexは、強い認識とパフォーマンスの理解を示し、これら2つの機能の組み合わせによって、多くの魅力的なアプリケーションも解放される。
論文参考訳（メタデータ） (2024-11-27T14:11:10Z)
FuseChat: Knowledge Fusion of Chat Models [35.90957231731829]
チャットLLMの知識融合のための新しいフレームワークを提案する。我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
論文参考訳（メタデータ） (2024-08-15T07:37:24Z)
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning [54.74986983905282]
コンテキスト内学習には多くの例があるが、新しいタスクを学ぶには有望だ。基本的には事前トレーニング時に設定されたモデルのコンテキスト長によって制限される。これにより、微調整なしで多くのショットを少ないトークンに圧縮する方法の必要性が生じる。
論文参考訳（メタデータ） (2024-06-21T17:50:02Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。 M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。 M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文参考訳（メタデータ） (2023-11-29T11:30:33Z)
GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文参考訳（メタデータ） (2023-11-06T18:59:57Z)
Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。 MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文参考訳（メタデータ） (2023-08-31T05:15:27Z)
Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic [26.852628804626494]
人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。この対話における自然な参照能力は、現在のマルチモーダル大言語モデルには残っていない。本稿では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。
論文参考訳（メタデータ） (2023-06-27T04:31:52Z)
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。ビデオに関する詳細な会話を理解し、生成することができる。我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。