論文の概要: PinPoint: Prompting with Informative Interior Points
- arxiv url: http://arxiv.org/abs/2605.26689v1
- Date: Tue, 26 May 2026 08:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.751458
- Title: PinPoint: Prompting with Informative Interior Points
- Title(参考訳): PinPoint: インテリアをインフォームしたプロンプト
- Authors: Pouya Sadeghi, Shawn He, Pedro Pablo Guerrero Vela, C. Thomas, Alex Wong, Sirisha Rambhatla,
- Abstract要約: 以前の作業は、境界線、イントラクタ、背景の散らばりに着地する、鼻でサンプリングされた点に依存していた。
我々は、この観察を、4つの視覚的手がかりをコンセンサスマップに融合させる決定論的でトレーニングなしのポイントセレクタであるPinPointに変換する。
タスク固有のトレーニングがなければ、PinPointは同じスタック上の教師付きおよびRL指定のスペシャリストと一致し、クエリ毎に2つのVLMコールしか発行しない。
- 参考スコア(独自算出の注目度): 8.453118135358116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern referring image segmentation pipelines couple a vision-language model (VLM) for grounding with a promptable segmenter such as the Segment Anything Model (SAM) for mask generation. Prior training-free instances of this recipe consistently trail fine-tuned and reinforcement-learning (RL)-tuned specialists, and it has been unclear whether the gap comes from the VLM's grounding, SAM's capacity, or the prompt. We show that the gap is dominated by prompt ambiguity: a VLM-proposed bounding box (bbox) leaves SAM to guess which pixels inside the bbox belong to the object the expression denotes. Interior points are the natural disambiguator, but where they fall matters; prior work relies on naively sampled points that land on boundaries, distractors, and background clutter, and can even hurt performance compared to the bbox alone. Supervised and RL-tuned methods close this gap by training a VLM to predict better points; we show that this training is unnecessary. At a matched budget of five interior points, replacing naive sampling with stable, informative point selection improves cumulative Intersection-over-Union (cIoU) by 12-18 points across RefCOCO/+/g, with every model fixed. We turn this observation into PinPoint, a deterministic, training-free point selector that fuses four visual cues into a consensus map, selects compact, spatially diverse points away from boundaries, and uses the frozen VLM to label each point. Without any task-specific training, PinPoint matches supervised and RL-tuned specialists on the same stack while issuing only two VLM calls per query.
- Abstract(参考訳): 現代の参照画像セグメンテーションパイプラインは、マスク生成のためのSegment Anything Model (SAM)のようなプロンプト可能なセグメンタと接地するための視覚言語モデル(VLM)を結合している。
このレシピのトレーニングなし例は、常に微調整および強化学習(RL)を専門とする専門家を追及しており、このギャップがVLMの接地、SAMの能力、あるいはプロンプトから生じるかは定かではない。
VLMが提案するバウンディングボックス(bbox)はSAMを離れ、bbox内のどのピクセルが表現されたオブジェクトに属するのかを推測する。
インテリアポイントは自然な曖昧さだが、それらが問題となる場所である。事前の作業は、境界線、邪魔者、背景の散らばりに着地し、ボックス単独よりもパフォーマンスを損なうような、鼻でサンプリングされた点に依存している。
VLMをトレーニングしてより良い点を予測することで、教師付きおよびRLで調整した手法は、このギャップを埋める。
5つの内部点の一致した予算で、安定した情報的点選択に置き換えることで、すべてのモデルが固定され、RefCOCO/+/gの12-18ポイントの累積インターセクション・オーバー・ユニオン(cIoU)が改善される。
これは、4つの視覚的手がかりをコンセンサスマップに融合させ、コンパクトで空間的に多様な点を境界から選択し、凍結したVLMを使って各点をラベル付けする。
タスク固有のトレーニングがなければ、PinPointは同じスタック上の教師付きおよびRL指定のスペシャリストと一致し、クエリ毎に2つのVLMコールしか発行しない。
関連論文リスト
- M2P: Improving Visual Foundation Models with Mask-to-Point Weakly-Supervised Learning for Dense Point Tracking [57.6064636075148]
ビデオ理解の基本的なツールとして、Tracking Any Point (TAP)が登場した。
現在のアプローチでは、オフラインの微調整やテストタイムの最適化を通じて、DINOv2のようなビジョンファウンデーションモデル(VFM)を適用している。
本稿では、リッチビデオオブジェクトセグメンテーション(VOS)マスクアノテーションを利用して、高密度点追跡のためのVFMを改善するMask-to-Point(M2P)学習を提案する。
論文 参考訳(メタデータ) (2026-03-18T15:06:22Z) - P2Object: Single Point Supervised Object Detection and Instance Segmentation [58.778288785355]
バランスの取れたtextbftextitinstance レベルの提案バッグを構成する Point-to-Box Network (P2BNet) を導入する。
P2MNetはより正確なバウンディングボックスを生成し、セグメンテーションタスクに一般化することができる。
提案手法は,COCO,VOC,Cityscapesの平均精度において,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-04-10T14:51:08Z) - Visual and Text Prompt Segmentation: A Novel Multi-Model Framework for Remote Sensing [30.980687857037033]
本稿では,Grounding DINO,CLIP,SAMの強みを活かしたVTPSegパイプラインを提案する。
このパイプラインは,5つの一般的なリモートセンシング画像セグメンテーションデータセットを用いて,実験およびアブレーションによる検証を行った。
論文 参考訳(メタデータ) (2025-03-10T23:15:57Z) - S4M: Segment Anything with 4 Extreme Points [2.052287962818431]
Segment Anything Model (SAM) は主にポイントやバウンディングボックスのようなスパースプロンプトに依存している。
S4Mは、インスタンスのトップポイント、ボトムポイント、左ポイント、右ポイントといった極端なポイントを活用することでSAMを強化します。
S4Mは3つの内視鏡的外科的データセットで他のSAMベースのアプローチより優れている。
論文 参考訳(メタデータ) (2025-03-07T16:02:11Z) - PointSAM: Pointly-Supervised Segment Anything Model for Remote Sensing Images [16.662173255725463]
本稿では,PointSAM という新しいセグメンテーションモデルを提案する。
我々は, WHU, HRSID, NWPU VHR-10を含むRSIデータセットの実験を行った。
その結果,本手法はSAM,SAM2,その他の比較法で直接試験よりも優れていた。
論文 参考訳(メタデータ) (2024-09-20T11:02:18Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - FreePoint: Unsupervised Point Cloud Instance Segmentation [72.64540130803687]
点クラウド上の教師なしクラス非依存のインスタンスセグメンテーションを探索するためのFreePointを提案する。
我々は、座標、色、そして自己監督の深い特徴を組み合わせることで、点の特徴を表現する。
ポイント機能に基づいて、ポイントクラウドを擬似ラベルとして粗いインスタンスマスクに分割し、ポイントクラウドインスタンスセグメンテーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-05-11T16:56:26Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit
Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。
実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-18T07:18:25Z) - Point Cloud Instance Segmentation with Semi-supervised Bounding-Box
Mining [17.69745159912481]
ラベル付きおよび未ラベルのバウンディングボックスを監視として使用した,最初の半教師付きポイントクラウドインスタンスセグメンテーションフレームワーク(SPIB)を紹介した。
提案手法は,近年の完全教師付き手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2021-11-30T08:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。