論文の概要: PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2412.15209v1
- Date: Thu, 19 Dec 2024 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 18:44:16.281454
- Title: PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
- Title(参考訳): PRIMA:セグメンテーションを推論するマルチイメージビジョン言語モデル
- Authors: Muntasir Wahed, Kiet A. Nguyen, Adheesh Sunil Juvekar, Xinzhuo Li, Xiaona Zhou, Vedant Shah, Tianjiao Yu, Pinar Yanardag, Ismini Lourentzou,
- Abstract要約: PRIMAはLVLM(Large Vision-Language Models)で、ピクセルレベルのグラウンドと堅牢なマルチイメージ推論機能を統合する。
PRIMAは複数の画像にわたる細粒度の視覚表現をクエリし、TFLOPを25.3%値下げした。
- 参考スコア(独自算出の注目度): 4.628848080978533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in Large Vision-Language Models (LVLMs), existing pixel-grounding models operate on single-image settings, limiting their ability to perform detailed, fine-grained comparisons across multiple images. Conversely, current multi-image understanding models lack pixel-level grounding. Our work addresses this gap by introducing the task of multi-image pixel-grounded reasoning segmentation, and PRIMA, a novel LVLM that integrates pixel-level grounding with robust multi-image reasoning capabilities to produce contextually rich, pixel-grounded explanations. Central to PRIMA is an efficient vision module that queries fine-grained visual representations across multiple images, reducing TFLOPs by $25.3\%$. To support training and evaluation, we curate $M^4Seg$, a new reasoning segmentation benchmark consisting of $\sim$224K question-answer pairs that require fine-grained visual understanding across multiple images. Experimental results demonstrate PRIMA outperforms state-of-the-art baselines.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の大幅な進歩にもかかわらず、既存のピクセルグラウンドモデルはシングルイメージ設定で動作し、複数の画像に対して詳細できめ細かい比較を行う能力を制限する。
逆に、現在のマルチイメージ理解モデルはピクセルレベルのグラウンド化を欠いている。
PRIMAは、画素レベルのグラウンドディングと堅牢なマルチイメージ推論機能を統合し、文脈的にリッチな画素グラウンドの説明を生成する新しいLVLMである。
Central to PRIMAは、複数の画像にまたがる細粒度の視覚表現をクエリする効率的な視覚モジュールであり、TFLOPを25.3 %$に削減する。
M^4Seg$は、複数の画像に対してきめ細かな視覚的理解を必要とする$224Kの質問応答対からなる、新しい推論セグメンテーションベンチマークである。
実験の結果、PRIMAは最先端のベースラインより優れていた。
関連論文リスト
- Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding [65.11838260342586]
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。
本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。
また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
論文 参考訳(メタデータ) (2025-04-14T17:52:22Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting [28.65445105418749]
我々は,前景画像の塗布における課題に対処するために設計された,先駆的なマルチエージェントフレームワークであるAnywhereを紹介した。
Anywhereには、ビジュアル言語モデル、大規模言語モデル、画像生成モデルなど、さまざまなエージェントが採用されている。
前景の塗装、「過剰想像」の緩和、前景の背景の相違の解消、多様性の向上などである。
論文 参考訳(メタデータ) (2024-04-29T11:13:37Z) - All in an Aggregated Image for In-Image Learning [22.605706711147405]
本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。
I$2$Lは、実演例、視覚的手がかり、思考の連鎖的推論を集約されたイメージに組み合わせている。
本研究では,MathVista 上で I$2$L と I$2$L-Hybrid の有効性を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-28T01:32:59Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。