論文の概要: Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
- arxiv url: http://arxiv.org/abs/2602.13195v1
- Date: Fri, 13 Feb 2026 18:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.089004
- Title: Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
- Title(参考訳): 対話型イメージセグメンテーション:スケーラブルなスーパービジョンによる抽象概念のグラウンディング
- Authors: Aadarsh Sahoo, Georgia Gkioxari,
- Abstract要約: 会話画像のセグメンテーションは、意図駆動の概念をピクセル精度マスクに基礎付ける。
本稿では,CIS(Conversational Image)とコンバーセグ(ConverSeg)について紹介する。
現在の言語誘導セグメンテーションモデルはCISには不十分である一方で、データエンジンでトレーニングされたConverSeg-Netは、ConverSegで大幅に向上していることを示す。
- 参考スコア(独自算出の注目度): 8.33597492496317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/
- Abstract(参考訳): 会話画像のセグメンテーションは、抽象的で意図駆動的な概念をピクセル精度マスクに基礎付ける。
イメージグラウンドディングを参照する以前の作業は、分類的および空間的クエリ(例:「一番左のリンゴ」)に焦点を当てており、機能的および物理的推論(例:「ナイフを安全に保管できる場所」)を見落としている。
このギャップに対処し、Conversational Image Segmentation (CIS)とConverSegを紹介します。
また、強いセグメンテーションを言語理解と融合させるConverSeg-Netと、人間の監督なしにプロンプトマスクペアを生成するAI駆動のデータエンジンについても紹介する。
データエンジンでトレーニングしたConverSeg-Netは、ConverSegで大幅に向上し、既存の言語誘導セグメンテーションベンチマークで高いパフォーマンスを維持しています。
プロジェクトWebページ: https://glab-caltech.github.io/converseg/
関連論文リスト
- Rethinking Query-based Transformer for Continual Image Segmentation [59.40646424650094]
CIS(Class-incremental/Continual Image segmentation)は、各段階ごとに利用可能なカテゴリのセットが異なる段階において、イメージセグメンタを訓練することを目的としている。
現在の方法は、しばしば連続的な学習プロセスからマスク生成を分離する。
しかし, この研究では, 可塑性の喪失と入力データ順序への重み付けという, 切り離されたフレームワークの2つの重要な問題を明らかにした。
論文 参考訳(メタデータ) (2025-07-10T15:03:10Z) - Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation [39.17707407384492]
汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、目に見えないクラスや見えないクラスのセグメンテーションを実現することを目的としている。
本稿では,空間部品 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:39:14Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。