論文の概要: Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision
- arxiv url: http://arxiv.org/abs/2410.08209v1
- Date: Thu, 10 Oct 2024 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:46:03.662380
- Title: Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision
- Title(参考訳): 接地監督のない大規模マルチモーダルモデルにおける創発的接地
- Authors: Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang,
- Abstract要約: 現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。
拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
- 参考スコア(独自算出の注目度): 29.004844323516412
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current large multimodal models (LMMs) face challenges in grounding, which requires the model to relate language components to visual entities. Contrary to the common practice that fine-tunes LMMs with additional grounding supervision, we find that the grounding ability can in fact emerge in LMMs trained without explicit grounding supervision. To reveal this emerging grounding, we introduce an "attend-and-segment" method which leverages attention maps from standard LMMs to perform pixel-level segmentation. Furthermore, to enhance the grounding ability, we propose DIFFLMM, an LMM utilizing a diffusion-based visual encoder, as opposed to the standard CLIP visual encoder, and trained with the same weak supervision. Without being constrained by the biases and limited scale of grounding-specific supervision data, our approach is more generalizable and scalable. We achieve competitive performance on both grounding-specific and general visual question answering benchmarks, compared with grounding LMMs and generalist LMMs, respectively. Notably, we achieve a 44.2 grounding mask recall on grounded conversation generation without any grounding supervision, outperforming the extensively supervised model GLaMM. Project page: https://groundLMM.github.io.
- Abstract(参考訳): 現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンディング・インフォメーションを付加したファインチューンLMMの一般的な実践とは対照的に、グラウンドニング・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーションは、グラウンドニング・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション(LMM)において、グラウンドティング・インフォメーション・イン・
この新たな基盤を明らかにするために,標準LMMからのアテンションマップを利用してピクセルレベルのセグメンテーションを行う"attend-and-segment"手法を提案する。
さらに,拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
バイアスや限定的な接地固有の監視データに制約されることなく、我々のアプローチはより一般化可能でスケーラブルです。
また,LMMと一般LMMとを比較して,グラウンドリング固有と一般視覚的問合せベンチマークの両性能を比較検討した。
特に,広範に監督されたモデルであるGLaMMよりも優れた,座屈した会話生成における44.2の接地マスクリコールを実現する。
プロジェクトページ: https://groundLMM.github.io
関連論文リスト
- PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? [3.707598923599952]
画素レベルのMLLMの現在の傾向は、大規模ラベル付きデータに基づいて画素レベルの接地監督を訓練することである。
近年の視覚中心のベンチマークで評価すると,このようなMLLMは視覚的質問応答の弱い能力を示す。
我々は, PixFoundation と呼ばれる任意の MLLM に接続可能な接地情報を抽出するために, 単純なベースラインを提案する。
論文 参考訳(メタデータ) (2025-02-06T16:29:50Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models [105.7362622712606]
大規模マルチモーダルモデル(LMM)のグラウンド化能力はますます認識されている。
問題は、グラウンドド・ビジュアル・チャット(GVC)のためのデータセットがないことだ。
私たちはグラウンドとチャット機能を組み合わせられるGVCデータを作成しました。
我々のモデルは、RefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンドベンチマーク上での競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-05T18:29:31Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。