論文の概要: Towards Pixel-Level VLM Perception via Simple Points Prediction
- arxiv url: http://arxiv.org/abs/2601.19228v1
- Date: Tue, 27 Jan 2026 05:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.196859
- Title: Towards Pixel-Level VLM Perception via Simple Points Prediction
- Title(参考訳): 簡易点予測による画素レベルVLM認識に向けて
- Authors: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)をネイティブなピクセルレベルの知覚で実現するための,極めて単純かつ高効率なアプローチであるSimpleSegを提案する。
提案手法は分割を単純なシーケンス生成問題として再設定し,そのモデルがポイントのシーケンスを直接予測する。
標準のMLLMアーキテクチャは、特別なアーキテクチャを使わずにアンロックできるような、低レベルの知覚に強く固有の能力を持っていることが判明した。
- 参考スコア(独自算出の注目度): 27.271487302305726
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SF$\to$RL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)をネイティブなピクセルレベルの知覚で実現するための,極めて単純かつ高効率なアプローチであるSimpleSegを提案する。
本手法は,セグメント化を単純なシーケンス生成問題として再構成する。本モデルでは,オブジェクト境界を記述した点(テキスト座標)の列を直接予測し,その言語空間内でのセグメンテーションを行う。
高忠実度を達成するために、IoUベースの報酬を用いた強化学習により、点列を改良し、接地路の輪郭を正確に整合させる2段階のSF$\to$RLトレーニングパイプラインを導入する。
標準のMLLMアーキテクチャは、特別なアーキテクチャを使わずにアンロックできるような、低レベルの知覚に強く固有の能力を持っていることが判明した。
セグメンテーションベンチマークでは、SimpleSegは複雑なタスク固有の設計に依存するメソッドに匹敵し、しばしば上回るパフォーマンスを達成する。
この研究は、単純な点予測から正確な空間理解が生まれ、補助的なコンポーネントの必要性に挑戦し、より統一的で有能なVLMへの道を開くことを明らかにした。
ホームページ: https://simpleseg.github.io/
関連論文リスト
- SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation [0.0]
凍結したCLIPビジョンエンコーダから直接、潜伏した幾何学的知識を解き明かし、解釈するアーキテクチャであるSPACE-CLIPを提案する。
意味経路は、グローバルな文脈で動的に条件付けられた高レベルな特徴を解釈する。
構造経路は、初期層から微細な空間的詳細を抽出する。
論文 参考訳(メタデータ) (2026-01-25T02:32:01Z) - PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity [39.98516860109934]
PixelReferは、統一された領域レベルのMLLMフレームワークで、ユーザが指定した領域についてより詳細な理解を可能にする。
解析の結果,グローバルな視覚トークンは主に初期のLCM層に寄与し,PixelRefer-Liteの設計を刺激していることがわかった。
微粒な命令チューニングを容易にするため,高品質なオブジェクト中心命令データセットであるPixelRefer-2.2Mをキュレートする。
論文 参考訳(メタデータ) (2025-10-27T17:59:32Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - GRASP: Geospatial pixel Reasoning viA Structured Policy learning [16.023628299873494]
GRASPは、マルチモーダルな大規模言語モデルと事前訓練されたセグメンテーションモデルを統合する、構造化されたポリシー学習フレームワークである。
PRIMEは、教師付き微調整を強化学習に置き換える訓練パラダイムであり、推論や接地行動とタスク目標との整合性を改善する。
GRASP-1kは、推論集約的なクエリ、推論トレース、きめ細かいマスクを備えた、完全にドメイン外ベンチマークである。
論文 参考訳(メタデータ) (2025-08-23T18:05:06Z) - Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding [65.11838260342586]
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。
本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。
また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
論文 参考訳(メタデータ) (2025-04-14T17:52:22Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。