論文の概要: PixelLM: Pixel Reasoning with Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2312.02228v1
- Date: Mon, 4 Dec 2023 03:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:13:43.990283
- Title: PixelLM: Pixel Reasoning with Large Multimodal Model
- Title(参考訳): PixelLM: 大規模マルチモーダルモデルによるピクセル推論
- Authors: Zhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao, Dongmei Fu,
Jiashi Feng, Xiaojie Jin
- Abstract要約: PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。
コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 116.04193465021712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large multimodal models (LMMs) have achieved remarkable progress,
generating pixel-level masks for image reasoning tasks involving multiple
open-world targets remains a challenge. To bridge this gap, we introduce
PixelLM, an effective and efficient LMM for pixel-level reasoning and
understanding. Central to PixelLM is a novel, lightweight pixel decoder and a
comprehensive segmentation codebook. The decoder efficiently produces masks
from the hidden embeddings of the codebook tokens, which encode detailed
target-relevant information. With this design, PixelLM harmonizes with the
structure of popular LMMs and avoids the need for additional costly
segmentation models. Furthermore, we propose a target refinement loss to
enhance the model's ability to differentiate between multiple targets, leading
to substantially improved mask quality. To advance research in this area, we
construct MUSE, a high-quality multi-target reasoning segmentation benchmark.
PixelLM excels across various pixel-level image reasoning and understanding
tasks, outperforming well-established methods in multiple benchmarks, including
MUSE, single- and multi-referring segmentation. Comprehensive ablations confirm
the efficacy of each proposed component. All code, models, and datasets will be
publicly available.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は目覚ましい進歩を遂げているが、複数のオープンワールドターゲットを含む画像推論タスクのためのピクセルレベルのマスクを生成することは依然として課題である。
このギャップを埋めるために、ピクセルレベルの推論と理解のための効率的かつ効率的なLMMであるPixelLMを導入する。
Central to PixelLMは、新しくて軽量なピクセルデコーダであり、包括的セグメンテーションコードブックである。
デコーダは、詳細なターゲット関連情報を符号化するコードブックトークンの隠れ埋め込みからマスクを効率よく生成する。
この設計により、PixelLMは一般的なLMMの構造と調和し、さらにコストのかかるセグメンテーションモデルを必要としない。
さらに,複数のターゲット間を区別するモデルの能力を向上させるため,マスク品質が大幅に向上する目標精細化損失を提案する。
そこで本研究では,高品質なマルチターゲット推論セグメンテーションベンチマークであるMUSEを構築した。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、MUSEやシングル参照セグメンテーション、マルチ参照セグメンテーションなど、複数のベンチマークで確立されたメソッドよりも優れている。
包括的アブレーションは各成分の有効性を確認する。
すべてのコード、モデル、データセットが公開される予定だ。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [18.100947750831885]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Longer-range Contextualized Masked Autoencoder [43.42706719923587]
Masked Image Modeling (MIM)は、有望な自己教師型学習(SSL)戦略として登場した。
我々はLonger-range Conized Masked Autoencoder (LC-MAE)という自己教師型学習フレームワークを提案する。
本手法は,複数ビューで全画素から学習すると同時に,スパース画素から局所表現を学習する。
論文 参考訳(メタデータ) (2023-10-20T15:42:47Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - Efficient Multiscale Object-based Superpixel Framework [62.48475585798724]
我々は,SICLE(Iterative CLEarcutting)によるスーパーピクセルという,新しいスーパーピクセルフレームワークを提案する。
SICLEは、複数スケールのセグメンテーションをオンザフライで生成できるオブジェクト情報を利用する。
これは最近のスーパーピクセル法を一般化し、複数のデライン化指標に従って効率と効率性に関する最先端のアプローチを超越している。
論文 参考訳(メタデータ) (2022-04-07T15:59:38Z) - Automatic Image Labelling at Pixel Level [21.59653873040243]
画素レベルの画像ラベリングを自動的に生成する興味深い学習手法を提案する。
The Guided Filter Network (GFN) was first developed to learn the segmentation knowledge from a source domain。
GFNはそのようなセグメンテーションの知識を変換し、ターゲットドメインで粗いオブジェクトマスクを生成する。
論文 参考訳(メタデータ) (2020-07-15T00:34:11Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。