論文の概要: R2SM: Referring and Reasoning for Selective Masks
- arxiv url: http://arxiv.org/abs/2506.01795v1
- Date: Mon, 02 Jun 2025 15:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.588137
- Title: R2SM: Referring and Reasoning for Selective Masks
- Title(参考訳): R2SM:選択マスクの参照と推論
- Authors: Yu-Lin Shih, Wei-En Tai, Cheng Sun, Yu-Chiang Frank Wang, Hwann-Tzong Chen,
- Abstract要約: 選択マスク(R2SM)に対する参照と推論という新しいタスクを導入する。
このタスクは、ユーザ意図によって駆動されるマスクタイプの選択を組み込むことで、テキスト誘導セグメンテーションを拡張する。
本稿では,COCOA-cls,D2SA,MUVAのアノテーションを付加して構築したR2SMデータセットについて述べる。
- 参考スコア(独自算出の注目度): 35.150696061791805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a new task, Referring and Reasoning for Selective Masks (R2SM), which extends text-guided segmentation by incorporating mask-type selection driven by user intent. This task challenges vision-language models to determine whether to generate a modal (visible) or amodal (complete) segmentation mask based solely on natural language prompts. To support the R2SM task, we present the R2SM dataset, constructed by augmenting annotations of COCOA-cls, D2SA, and MUVA. The R2SM dataset consists of both modal and amodal text queries, each paired with the corresponding ground-truth mask, enabling model finetuning and evaluation for the ability to segment images as per user intent. Specifically, the task requires the model to interpret whether a given prompt refers to only the visible part of an object or to its complete shape, including occluded regions, and then produce the appropriate segmentation. For example, if a prompt explicitly requests the whole shape of a partially hidden object, the model is expected to output an amodal mask that completes the occluded parts. In contrast, prompts without explicit mention of hidden regions should generate standard modal masks. The R2SM benchmark provides a challenging and insightful testbed for advancing research in multimodal reasoning and intent-aware segmentation.
- Abstract(参考訳): 本稿では,ユーザ意図によって誘導されるマスクタイプの選択を組み込んだテキスト誘導セグメンテーションを拡張したR2SM(Referring and Reasoning for Selective Masks)を提案する。
このタスクは、自然言語プロンプトのみに基づいて、モーダル(可視)またはアモーダル(完全)セグメンテーションマスクを生成するかどうかを決定するために、視覚言語モデルに挑戦する。
R2SMタスクをサポートするために,COCOA-cls,D2SA,MUVAのアノテーションを付加して構築したR2SMデータセットを提案する。
R2SMデータセットは、モーダルテキストクエリとアモーダルテキストクエリの両方で構成され、それぞれが対応するグランドトゥルースマスクとペアリングされ、モデルの微調整とユーザ意図ごとの画像のセグメント化を可能にする。
具体的には、与えられたプロンプトが対象の可視部分のみを指しているのか、あるいは隠された領域を含むその完全な形状を指しているのかを解釈し、適切なセグメンテーションを生成する必要がある。
例えば、プロンプトが部分的に隠されたオブジェクトの全体形状を明示的に要求すると、モデルは隠された部分を完成させるアモーダルマスクを出力する。
対照的に、隠された領域に明示的に言及しないプロンプトは標準のモーダルマスクを生成するべきである。
R2SMベンチマークは、マルチモーダル推論と意図認識セグメンテーションの研究を進める上で、挑戦的で洞察に富んだテストベッドを提供する。
関連論文リスト
- Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval [13.296362770269452]
Mask-aware TIR (MaTIR) は、テキストクエリに基づいて関連する画像を見つけることを目的としている。
セグメンテーションを意識した画像検索のための第1段階と、再ランク付けとオブジェクトグラウンド化のための第2段階からなる2段階のフレームワークを提案する。
我々はCOCOとD$3$データセットに対するアプローチを評価し、従来の手法に比べて精度とセグメンテーション品質の両方が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-28T12:19:49Z) - Refer to Anything with Vision-Language Prompts [43.00233077605867]
RAS(Refer to Any Mask Group)は、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを強化する。
我々は,従来の参照表現セグメンテーション(RES)および一般化参照表現セグメンテーション(GRES)タスクと同様に,新しいORESタスクにおけるRASの優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-05T17:59:51Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation [21.30568336073013]
オープン語彙セグメンテーション(open-vocabulary segmentation)の課題に取り組み、異なる環境における幅広いカテゴリのオブジェクトを識別する必要がある。
既存の方法はCLIPのようなマルチモーダルモデルを使うことが多い。
本稿では,PMP(Prompt-Guided Mask Proposal)を提案する。
論文 参考訳(メタデータ) (2024-12-13T17:22:50Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。