論文の概要: R2SM: Referring and Reasoning for Selective Masks
- arxiv url: http://arxiv.org/abs/2506.01795v1
- Date: Mon, 02 Jun 2025 15:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.588137
- Title: R2SM: Referring and Reasoning for Selective Masks
- Title(参考訳): R2SM:選択マスクの参照と推論
- Authors: Yu-Lin Shih, Wei-En Tai, Cheng Sun, Yu-Chiang Frank Wang, Hwann-Tzong Chen,
- Abstract要約: 選択マスク(R2SM)に対する参照と推論という新しいタスクを導入する。
このタスクは、ユーザ意図によって駆動されるマスクタイプの選択を組み込むことで、テキスト誘導セグメンテーションを拡張する。
本稿では,COCOA-cls,D2SA,MUVAのアノテーションを付加して構築したR2SMデータセットについて述べる。
- 参考スコア(独自算出の注目度): 35.150696061791805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a new task, Referring and Reasoning for Selective Masks (R2SM), which extends text-guided segmentation by incorporating mask-type selection driven by user intent. This task challenges vision-language models to determine whether to generate a modal (visible) or amodal (complete) segmentation mask based solely on natural language prompts. To support the R2SM task, we present the R2SM dataset, constructed by augmenting annotations of COCOA-cls, D2SA, and MUVA. The R2SM dataset consists of both modal and amodal text queries, each paired with the corresponding ground-truth mask, enabling model finetuning and evaluation for the ability to segment images as per user intent. Specifically, the task requires the model to interpret whether a given prompt refers to only the visible part of an object or to its complete shape, including occluded regions, and then produce the appropriate segmentation. For example, if a prompt explicitly requests the whole shape of a partially hidden object, the model is expected to output an amodal mask that completes the occluded parts. In contrast, prompts without explicit mention of hidden regions should generate standard modal masks. The R2SM benchmark provides a challenging and insightful testbed for advancing research in multimodal reasoning and intent-aware segmentation.
- Abstract(参考訳): 本稿では,ユーザ意図によって誘導されるマスクタイプの選択を組み込んだテキスト誘導セグメンテーションを拡張したR2SM(Referring and Reasoning for Selective Masks)を提案する。
このタスクは、自然言語プロンプトのみに基づいて、モーダル(可視)またはアモーダル(完全)セグメンテーションマスクを生成するかどうかを決定するために、視覚言語モデルに挑戦する。
R2SMタスクをサポートするために,COCOA-cls,D2SA,MUVAのアノテーションを付加して構築したR2SMデータセットを提案する。
R2SMデータセットは、モーダルテキストクエリとアモーダルテキストクエリの両方で構成され、それぞれが対応するグランドトゥルースマスクとペアリングされ、モデルの微調整とユーザ意図ごとの画像のセグメント化を可能にする。
具体的には、与えられたプロンプトが対象の可視部分のみを指しているのか、あるいは隠された領域を含むその完全な形状を指しているのかを解釈し、適切なセグメンテーションを生成する必要がある。
例えば、プロンプトが部分的に隠されたオブジェクトの全体形状を明示的に要求すると、モデルは隠された部分を完成させるアモーダルマスクを出力する。
対照的に、隠された領域に明示的に言及しないプロンプトは標準のモーダルマスクを生成するべきである。
R2SMベンチマークは、マルチモーダル推論と意図認識セグメンテーションの研究を進める上で、挑戦的で洞察に富んだテストベッドを提供する。
関連論文リスト
- LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation [21.30568336073013]
オープン語彙セグメンテーション(open-vocabulary segmentation)の課題に取り組み、異なる環境における幅広いカテゴリのオブジェクトを識別する必要がある。
既存の方法はCLIPのようなマルチモーダルモデルを使うことが多い。
本稿では,PMP(Prompt-Guided Mask Proposal)を提案する。
論文 参考訳(メタデータ) (2024-12-13T17:22:50Z) - DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。