Fugu-MT 論文翻訳(概要): PixelLM: Pixel Reasoning with Large Multimodal Model

論文の概要: PixelLM: Pixel Reasoning with Large Multimodal Model

arxiv url: http://arxiv.org/abs/2312.02228v1
Date: Mon, 4 Dec 2023 03:05:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 18:13:43.990283
Title: PixelLM: Pixel Reasoning with Large Multimodal Model
Title（参考訳）: PixelLM: 大規模マルチモーダルモデルによるピクセル推論
Authors: Zhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao, Dongmei Fu, Jiashi Feng, Xiaojie Jin
Abstract要約: PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。 PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
参考スコア（独自算出の注目度）: 116.04193465021712
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large multimodal models (LMMs) have achieved remarkable progress, generating pixel-level masks for image reasoning tasks involving multiple open-world targets remains a challenge. To bridge this gap, we introduce PixelLM, an effective and efficient LMM for pixel-level reasoning and understanding. Central to PixelLM is a novel, lightweight pixel decoder and a comprehensive segmentation codebook. The decoder efficiently produces masks from the hidden embeddings of the codebook tokens, which encode detailed target-relevant information. With this design, PixelLM harmonizes with the structure of popular LMMs and avoids the need for additional costly segmentation models. Furthermore, we propose a target refinement loss to enhance the model's ability to differentiate between multiple targets, leading to substantially improved mask quality. To advance research in this area, we construct MUSE, a high-quality multi-target reasoning segmentation benchmark. PixelLM excels across various pixel-level image reasoning and understanding tasks, outperforming well-established methods in multiple benchmarks, including MUSE, single- and multi-referring segmentation. Comprehensive ablations confirm the efficacy of each proposed component. All code, models, and datasets will be publicly available.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は目覚ましい進歩を遂げているが、複数のオープンワールドターゲットを含む画像推論タスクのためのピクセルレベルのマスクを生成することは依然として課題である。このギャップを埋めるために、ピクセルレベルの推論と理解のための効率的かつ効率的なLMMであるPixelLMを導入する。 Central to PixelLMは、新しくて軽量なピクセルデコーダであり、包括的セグメンテーションコードブックである。デコーダは、詳細なターゲット関連情報を符号化するコードブックトークンの隠れ埋め込みからマスクを効率よく生成する。この設計により、PixelLMは一般的なLMMの構造と調和し、さらにコストのかかるセグメンテーションモデルを必要としない。さらに,複数のターゲット間を区別するモデルの能力を向上させるため,マスク品質が大幅に向上する目標精細化損失を提案する。そこで本研究では,高品質なマルチターゲット推論セグメンテーションベンチマークであるMUSEを構築した。 PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、MUSEやシングル参照セグメンテーション、マルチ参照セグメンテーションなど、複数のベンチマークで確立されたメソッドよりも優れている。包括的アブレーションは各成分の有効性を確認する。すべてのコード、モデル、データセットが公開される予定だ。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。 HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文参考訳（メタデータ） (2025-03-17T10:29:08Z)
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。 HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。 HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文参考訳（メタデータ） (2025-03-11T17:08:54Z)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation [71.68085485928007]
我々はSemHiTokを紹介した。Semantic-Guided Hierarchical codebookによる統合画像トークンである。本稿では,LLaVA-v1.5設定下での画像再構成とマルチモーダル理解において,SemHiTokがSOTA性能を実現することを示す。また、SemHiTokを用いた統合MLLMを開発し、マルチモーダル理解および生成タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2025-03-09T20:42:34Z)
PiLaMIM: Toward Richer Visual Representations by Integrating Pixel and Latent Masked Image Modeling [7.630967411418269]
本稿では,Pixel MIMとLatent MIMを組み合わせた統合フレームワークPiLaMIMを提案する。本手法では,1つのエンコーダと2つの異なるデコーダを用いる。1つは画素値の予測であり,もう1つは潜在表現であり,高レベルおよび低レベルの両方の視覚的特徴のキャプチャを保証する。
論文参考訳（メタデータ） (2025-01-06T13:30:16Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model [19.861556031795725]
MGLMM(Multi-Granularity Large Multimodal Model)を導入する。 MGLMMはユーザ指示に従ってキャプション(SegCap)の粒度をシームレスに調整することができる。 8つ以上の下流タスクに対処し、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-20T11:13:31Z)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳（メタデータ） (2024-08-28T17:59:31Z)
A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-28T04:14:01Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文参考訳（メタデータ） (2024-03-21T17:50:47Z)
Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文参考訳（メタデータ） (2024-02-04T16:06:05Z)
CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文参考訳（メタデータ） (2022-12-04T08:53:42Z)
Revisiting Sequence-to-Sequence Video Object Segmentation with Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文参考訳（メタデータ） (2020-04-25T15:38:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。