論文の概要: Unified Open-World Segmentation with Multi-Modal Prompts
- arxiv url: http://arxiv.org/abs/2510.10524v1
- Date: Sun, 12 Oct 2025 09:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.98972
- Title: Unified Open-World Segmentation with Multi-Modal Prompts
- Title(参考訳): マルチモーダルプロンプトを用いた統一オープンワールドセグメンテーション
- Authors: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen,
- Abstract要約: COSINEはオープン・ボキャブラリ・セグメンテーションとイン・コンテクスト・セグメンテーションをマルチモーダル・プロンプトと統合したオープンワールドセグメンテーション・モデルである。
我々はCOSINEがオープン語彙とコンテキスト内セグメンテーションタスクの両方で大幅な性能改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 53.04555122154363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
- Abstract(参考訳): 本研究では,オープン語彙セグメンテーションとインコンテキストセグメンテーションをマルチモーダルプロンプト(例えばテキストや画像)で統合したオープンワールドセグメンテーションモデルCOSINEを提案する。
COSINEは基礎モデルを利用して、入力画像と対応するマルチモーダルプロンプトの表現を抽出し、セグデコーダを使用してこれらの表現を調整し、相互作用をモデル化し、異なる粒度の入力プロンプトによって指定されたマスクを取得する。
このようにして、COSINEは、アーキテクチャ上の相違、分岐学習目標、およびオープン語彙セグメンテーションとインコンテキストセグメンテーションのための以前のパイプラインの異なる表現学習戦略を克服する。
包括的実験により、COSINEはオープンボキャブラリとインコンテキストセグメンテーションの両方において、大幅な性能向上が示されている。
探索分析では,視覚的プロンプトとテキスト的プロンプトの相乗的協調が,単一モダリティアプローチに対する一般化を著しく向上させることを示した。
関連論文リスト
- Understanding Multi-Granularity for Open-Vocabulary Part Segmentation [24.071471822239854]
Open-vocabulary part segmentation (OVPS) は、多種多様な未確認語彙を用いたきめ細かいエンティティのセグメンテーションに焦点を当てた新興研究分野である。
本研究は,部分識別の知識に基づく性質を反映して,複雑な境界と多様な粒度による部分分割の複雑さを強調した。
一般化された部分とオブジェクトレベルのコンテキストを活用する新しいフレームワークであるPartCLIPSegを提案する。
論文 参考訳(メタデータ) (2024-06-17T10:11:28Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。