論文の概要: PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?
- arxiv url: http://arxiv.org/abs/2502.04192v3
- Date: Mon, 02 Jun 2025 07:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.046651
- Title: PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?
- Title(参考訳): PixFoundation: 私たちはPixelレベルのビジョンファウンデーションモデルで正しい方向に向かっていますか?
- Authors: Mennatullah Siam,
- Abstract要約: 画素レベルのMLLMの現在の傾向は、大規模ラベル付きデータに基づいて画素レベルの接地監督を訓練することである。
最近の視覚中心のベンチマークで評価すると、このようなMLLMは視覚的質問応答(VQA)の弱い能力を示す。
画素レベルの接地監督のないMLLMは,そのようなタスクにおいて,技術状況よりも優れることを示す。
- 参考スコア(独自算出の注目度): 3.707598923599952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple works have emerged to push the boundaries on multi-modal large language models (MLLMs) towards pixel-level understanding. The current trend in pixel-level MLLMs is to train with pixel-level grounding supervision on large-scale labelled data with specialized decoders for the segmentation task. However, we show that such MLLMs when evaluated on recent challenging vision-centric benchmarks, exhibit a weak ability in visual question answering (VQA). Surprisingly, some of these methods even downgrade the grounding ability of MLLMs that were never trained with such pixel-level supervision. In this work, we propose two novel challenging benchmarks with paired evaluation for both VQA and grounding. We show that MLLMs without pixel-level grounding supervision can outperform the state of the art in such tasks. Our paired benchmarks and evaluation enable additional analysis on the reasons for failure with respect to VQA and/or grounding. Furthermore, we propose simple baselines to extract the grounding information that can be plugged into any MLLM, which we call PixFoundation. More importantly, we study the research question of "When does grounding emerge in MLLMs that are not trained with pixel-level grounding supervision?" We show that grounding can coincide with object parts, its location, appearance, context or state, where we show 27-45% of the examples in both benchmarks exhibit this phenomenon. Our code and datasets will be made publicly available and some are in the supplemental.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)の境界をピクセルレベルの理解へと押し上げるために、複数の作業が登場した。
画素レベルのMLLMの現在の傾向は、セグメンテーションタスクのための特別なデコーダを用いて、大規模ラベル付きデータに対する画素レベルの接地監督を訓練することである。
しかし,近年の難解な視覚中心のベンチマークでは,このようなMLLMが視覚質問応答(VQA)の弱い能力を示した。
驚くべきことに、これらの手法のいくつかは、そのようなピクセルレベルの監視で訓練されたことのないMLLMの接地能力をさらに低下させた。
そこで本研究では,VQAとグラウンド化の両面をペアで評価する,新しい2つのベンチマークを提案する。
画素レベルの接地監督のないMLLMは、そのようなタスクにおいて最先端のタスクよりも優れていることを示す。
我々のベンチマークと評価は、VQAおよび/または接地に関する失敗の原因について、さらなる分析を可能にする。
さらに, PixFoundation と呼ばれる任意の MLLM に接続可能な接地情報を抽出するために, 簡単なベースラインを提案する。
さらに、我々は「画素レベルの接地監督の訓練を受けていないMLLMにおいて、接地はいつ出現するのか?」という研究課題について研究する。
両方のベンチマークで27~45%のサンプルがこの現象を示した場合、グラウンドリングはオブジェクトの部分、その位置、外観、状況、状態と一致する可能性があることを示す。
コードとデータセットは公開され、一部は補足される予定です。
関連論文リスト
- Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding [65.11838260342586]
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。
本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。
また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
論文 参考訳(メタデータ) (2025-04-14T17:52:22Z) - Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images [58.38037252899024]
我々は,Multimodal LLMを用いて,数千万枚の画像からなる大規模データベースを解析するシステムを提案する。
我々は,一定期間にわたって都市を横断する頻繁な共起的変化(トリエント)を捉えることを目的としている。
ベースラインをはるかに上回り、大都市で撮影された画像から興味深い傾向を見出すことができる。
論文 参考訳(メタデータ) (2025-04-11T17:55:45Z) - Evaluating Graphical Perception with Multimodal LLMs [2.090547583226381]
マルチモーダル大言語モデル(MLLM)は画像の解析と理解において著しく進歩している。
可視化のために、MLLMはグラフィカルな知覚タスクに適用した場合、どのように機能するか?
本研究は主に、微調整および事前訓練されたモデルとゼロショットを用いて、人間の視覚的知覚と密に一致しているかどうかを判断する。
論文 参考訳(メタデータ) (2025-04-05T16:14:08Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision [29.004844323516412]
現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。
拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:55Z) - Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。