Fugu-MT 論文翻訳(概要): Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision

論文の概要: Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision

arxiv url: http://arxiv.org/abs/2410.08209v1
Date: Thu, 10 Oct 2024 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 04:46:03.662380
Title: Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision
Title（参考訳）: 接地監督のない大規模マルチモーダルモデルにおける創発的接地
Authors: Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang,
Abstract要約: 現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
参考スコア（独自算出の注目度）: 29.004844323516412
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Current large multimodal models (LMMs) face challenges in grounding, which requires the model to relate language components to visual entities. Contrary to the common practice that fine-tunes LMMs with additional grounding supervision, we find that the grounding ability can in fact emerge in LMMs trained without explicit grounding supervision. To reveal this emerging grounding, we introduce an "attend-and-segment" method which leverages attention maps from standard LMMs to perform pixel-level segmentation. Furthermore, to enhance the grounding ability, we propose DIFFLMM, an LMM utilizing a diffusion-based visual encoder, as opposed to the standard CLIP visual encoder, and trained with the same weak supervision. Without being constrained by the biases and limited scale of grounding-specific supervision data, our approach is more generalizable and scalable. We achieve competitive performance on both grounding-specific and general visual question answering benchmarks, compared with grounding LMMs and generalist LMMs, respectively. Notably, we achieve a 44.2 grounding mask recall on grounded conversation generation without any grounding supervision, outperforming the extensively supervised model GLaMM. Project page: https://groundLMM.github.io.
Abstract（参考訳）: 現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。グラウンディング・インフォメーションを付加したファインチューンLMMの一般的な実践とは対照的に、グラウンドニング・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーションは、グラウンドニング・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション(LMM)において、グラウンドティング・インフォメーション・イン・この新たな基盤を明らかにするために,標準LMMからのアテンションマップを利用してピクセルレベルのセグメンテーションを行う"attend-and-segment"手法を提案する。さらに,拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。バイアスや限定的な接地固有の監視データに制約されることなく、我々のアプローチはより一般化可能でスケーラブルです。また,LMMと一般LMMとを比較して,グラウンドリング固有と一般視覚的問合せベンチマークの両性能を比較検討した。特に,広範に監督されたモデルであるGLaMMよりも優れた,座屈した会話生成における44.2の接地マスクリコールを実現する。プロジェクトページ: https://groundLMM.github.io

関連論文リスト

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning [43.8114307203968]
最先端の大規模マルチモーダルモデル (LMM) は高解像度画像処理において課題に直面している。本稿では,多ターン接地型政策最適化(MGPO)を提案する。 MGPOは、LMMが自動的にサブイメージをトリミングすることで、鍵となる視覚領域に反復的に焦点を合わせることを可能にする。
論文参考訳（メタデータ） (2025-07-08T12:05:05Z)
PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding [114.47739645594204]
画素レベルの部分接地のために設計された LMM ベンチマークである PartONOMY を紹介する。我々はいくつかの部分中心LMMをトレーニングし、セグメント化トークンの代わりにスパンタグを使用する新しいセグメント化LMMであるPLUMを提案する。我々の研究は、LMMにおけるきめ細かい基礎的な視覚的理解を実現するための新たな道を開く。
論文参考訳（メタデータ） (2025-05-27T06:03:56Z)
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文参考訳（メタデータ） (2025-03-12T06:01:05Z)
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? [3.707598923599952]
画素レベルのMLLMの現在の傾向は、大規模ラベル付きデータに基づいて画素レベルの接地監督を訓練することである。近年の視覚中心のベンチマークで評価すると,このようなMLLMは視覚的質問応答の弱い能力を示す。我々は, PixFoundation と呼ばれる任意の MLLM に接続可能な接地情報を抽出するために, 単純なベースラインを提案する。
論文参考訳（メタデータ） (2025-02-06T16:29:50Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文参考訳（メタデータ） (2024-06-26T19:42:08Z)
F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文参考訳（メタデータ） (2024-06-09T15:14:26Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models [105.7362622712606]
大規模マルチモーダルモデル(LMM)のグラウンド化能力はますます認識されている。問題は、グラウンドド・ビジュアル・チャット(GVC)のためのデータセットがないことだ。私たちはグラウンドとチャット機能を組み合わせられるGVCデータを作成しました。我々のモデルは、RefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンドベンチマーク上での競合性能を実現している。
論文参考訳（メタデータ） (2023-12-05T18:29:31Z)
Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文参考訳（メタデータ） (2023-11-27T22:23:27Z)
GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文参考訳（メタデータ） (2023-11-06T18:59:57Z)
Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文参考訳（メタデータ） (2023-10-29T16:49:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。