論文の概要: SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
- arxiv url: http://arxiv.org/abs/2503.08625v1
- Date: Tue, 11 Mar 2025 17:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:27.297715
- Title: SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
- Title(参考訳): SegAgent: 人間のアノテーション軌道を省略してMLLMの画素理解能力を探る
- Authors: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen,
- Abstract要約: MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
- 参考スコア(独自算出の注目度): 52.57696897619189
- License:
- Abstract: While MLLMs have demonstrated adequate image understanding capabilities, they still struggle with pixel-level comprehension, limiting their practical applications. Current evaluation tasks like VQA and visual grounding remain too coarse to assess fine-grained pixel comprehension accurately. Though segmentation is foundational for pixel-level understanding, existing methods often require MLLMs to generate implicit tokens, decoded through external pixel decoders. This approach disrupts the MLLM's text output space, potentially compromising language capabilities and reducing flexibility and extensibility, while failing to reflect the model's intrinsic pixel-level understanding. Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new paradigm where MLLMs mimic human annotators using interactive segmentation tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT enables MLLMs to iteratively generate text-based click points, achieving high-quality masks without architectural changes or implicit tokens. Through this setup, we develop SegAgent, a model fine-tuned on human-like annotation trajectories, which achieves performance comparable to state-of-the-art (SOTA) methods and supports additional tasks like mask refinement and annotation filtering. HLMAT provides a protocol for assessing fine-grained pixel understanding in MLLMs and introduces a vision-centric, multi-step decision-making task that facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations of policy improvement method StaR and PRM-guided tree search further enhance model robustness in complex segmentation tasks, laying a foundation for future advancements in fine-grained visual perception and multi-step decision-making for MLLMs.
- Abstract(参考訳): MLLMは適切な画像理解能力を示しているが、それでもピクセルレベルの理解に苦慮し、実用的応用を制限している。
VQAや視覚接地といった現在の評価タスクは、きめ細かいピクセルの理解を正確に評価するには大きすぎる。
セグメンテーションはピクセルレベルの理解の基礎となっているが、既存の手法では、外部のピクセルデコーダを通じてデコードされる暗黙のトークンを生成するためにMLLMを必要とすることが多い。
このアプローチによってMLLMのテキスト出力スペースが破壊され、言語能力が損なわれ、柔軟性と拡張性が低下する一方で、本質的なピクセルレベルの理解を反映できない。
そこで我々は,MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Annotation Task)を導入する。
セグメンテーションを多段階のマルコフ決定プロセスとしてモデル化することで、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャ変更や暗黙のトークンなしで高品質なマスクを実現することができる。
このセットアップを通じて、人間のようなアノテーショントラジェクトリを微調整したモデルであるSegAgentを開発し、最新技術(SOTA)メソッドに匹敵するパフォーマンスを実現し、マスクの精細化やアノテーションフィルタリングなどの追加タスクをサポートする。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、MLLMの視覚的推論能力の探索を容易にするビジョン中心の多段階決定タスクを導入している。
政策改善手法 StaR と PRM 誘導木探索の適応により,複雑なセグメンテーションタスクにおけるモデルロバスト性はさらに向上し,よりきめ細かな視覚知覚とMLLM の多段階決定のための基盤となる。
関連論文リスト
- GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing [22.729750410621826]
GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
論文 参考訳(メタデータ) (2025-01-12T14:45:27Z) - Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.471419716572086]
LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。
本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文 参考訳(メタデータ) (2024-11-23T05:03:32Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - PixelLM: Pixel Reasoning with Large Multimodal Model [110.500792765109]
PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。
コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-04T03:05:59Z) - Perceptual MAE for Image Manipulation Localization: A High-level Vision
Learner Focusing on Low-level Features [33.37376410890546]
本稿では,Masked Autoencoder (MAE) を高精細な入力と知覚的損失監視モジュールを組み込むことで拡張する手法を提案する。
このような解釈に基づいて,高精細な入力と知覚的損失監視モジュールを組み込むことで,Masked Autoencoder (MAE) を強化する手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。