論文の概要: SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
- arxiv url: http://arxiv.org/abs/2605.20110v1
- Date: Tue, 19 May 2026 16:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.54211
- Title: SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
- Title(参考訳): SetCon: セットレベル概念予測によるオープンエンディング参照セグメンテーションを目指して
- Authors: Zhixiong Zhang, Yizhuo Li, Shuangrui Ding, Yuhang Zang, Shengyuan Ding, Long Xing, Yibin Wang, Qiaosheng Zhang, Jiaqi Wang,
- Abstract要約: オープンエンド参照セグメンテーションを明示的なセットレベル概念予測として再構成し、セットコンセプト(SetCon)を提案する。
階層的意味分解は、まずターゲットスコープを定義する共有セットレベル概念を予測し、次にターゲットサブセットに整合したきめ細かい概念群に洗練する。
SetConは画像ベンチマーク(gRefCOCOでは+3.3 gIoU、MUSEでは+12.1 gIoU)で最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 29.484762151451154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring segmentation grounds natural-language queries to pixel-level masks, but extending it to complex scenarios with multiple instances, cross-category groups, or open-ended target sets remains challenging. Previous Large Vision Language Model (LVLM)-based methods represent referred targets with one or more special tokens sequentially, treating multiple targets as separate outputs rather than a coherent set and offering little incentive to capture set-level properties such as completeness and mutual exclusivity. We reformulate open-ended referring segmentation as explicit set-level concept prediction and propose Set-Concept Segmentation (SetCon), which uses LVLM-generated natural-language concepts, instead of segmentation-specific tokens, as semantic conditions for joint mask-set decoding. A hierarchical semantic decomposition first predicts a shared set-level concept defining the target scope and then refines it into fine-grained concept groups aligned with target subsets. To support this, a two-stage annotation pipeline augments existing reasoning segmentation datasets with hierarchical semantic supervision (236k samples, 784k concept phrases). SetCon achieves state-of-the-art results on image benchmarks (+3.3 gIoU on gRefCOCO, +12.1 gIoU on MUSE), with margins that grow as the number of referred targets increases. The concept interface also transfers to video under a detect-and-track setting, yielding new state-of-the-art results on seven referring video benchmarks, including +10.9 J&F on MeViS and +12.4 J&F on Ref-SeCVOS.
- Abstract(参考訳): セグメンテーションの参照は、自然言語クエリをピクセルレベルのマスクに基礎付けるが、それを複数のインスタンス、クロスカテゴリグループ、あるいはオープンなターゲットセットで複雑なシナリオに拡張することは依然として難しい。
従来のLVLM(Large Vision Language Model)ベースの手法は、参照対象を1つ以上の特別なトークンで逐次的に表現し、複数のターゲットをコヒーレントなセットではなく独立した出力として扱い、完全性や相互排他性といったセットレベルの特性を捉えるインセンティブをほとんど与えない。
我々は,オープンエンド参照セグメンテーションを明示的なセットレベル概念予測として再構成し,セグメンテーション固有のトークンの代わりにLVLM生成した自然言語概念を用いたセグメンテーション(SetCon)を,ジョイントマスクセットデコーディングのセグメンテーション条件として提案する。
階層的意味分解は、まずターゲットスコープを定義する共有セットレベル概念を予測し、次にターゲットサブセットに整合したきめ細かい概念群に洗練する。
これをサポートするために、2段階のアノテーションパイプラインは、既存の推論セグメンテーションデータセットを階層的なセマンティック監視(236kサンプル、784kコンセプトフレーズ)で拡張する。
SetConは画像ベンチマーク(gRefCOCOでは+3.3 gIoU、MUSEでは+12.1 gIoU)で最先端の結果を達成する。
また、MeViSの+10.9 J&FとRef-SeCVOSの+12.4 J&Fを含む7つの参照ビデオベンチマークにおいて、検出と追跡の条件下でビデオに転送する。
関連論文リスト
- SceneParser: Hierarchical Scene Parsing for Visual Semantics Understanding [81.36825413112614]
一般的なシーン認識は、オブジェクト認識からオープンボキャブラリ接地、部分ローカライゼーション、アベイランス予測へと進歩してきた。
これらの機能は、インタラクション指向のシーン理解に必要な構造化された依存関係を捕捉することなく、オブジェクト、部品、またはインタラクションポイントをローカライズする独立した予測として実現されることが多い。
階層的シーンパーシング(Hierarchical Scene Parsing)は、物理的なシーンを明示的なシーンとして表現するインタラクション指向のパーシングタスクである。
論文 参考訳(メタデータ) (2026-05-14T14:58:46Z) - Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding [26.30521907946121]
Qwen3-VL-SegはMLLM予測ボックスを意味論的基盤構造として扱うパラメータ効率のよいフレームワークである。
その中核は、軽量のボックス誘導マスクデコーダで、マルチスケールの空間的特徴注入、空間意味的クエリ構築、ボックス誘導高解像度ピクセル融合を組み合わせている。
Qwen3-VL-Segはクローズドセットとオープンワールド設定で強く機能することを示す。
論文 参考訳(メタデータ) (2026-05-08T02:20:40Z) - Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation [54.53371540755023]
推論セグメンテーションは、複雑でしばしば暗黙的な指示によって参照されるターゲットに対して、ピクセル精度の高いマスクを求める。
我々は、限定ラベル付きデータとラベルなし画像の大きなコーパスから共同で学習する半教師付き推論セグメンテーションフレームワークCORAを提案する。
CORAは最先端の結果を達成し、都市景観理解のためのベンチマークデータセットであるCityscapesにラベル付きイメージを100個まで必要としています。
論文 参考訳(メタデータ) (2025-11-21T20:14:55Z) - A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP [12.96248884328754]
本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。
教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。
ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T07:54:18Z) - 2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC [46.76209037655681]
セミ教師付きビデオオブジェクトは、指定されたターゲットを1フレームのマスクでビデオシーケンスを通してセグメントすることを目的としている。
SeCフレームワークはより永続的なセグメンテーションのためにオブジェクトの深いセマンティック理解を確立した。
SeCはテストセットで39.7 JFnを獲得し、第7回大規模ビデオオブジェクトチャレンジの複合VOSトラックで2位にランクインした。
論文 参考訳(メタデータ) (2025-09-28T12:26:03Z) - SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment [16.926158907882012]
本稿では,変圧器を用いたセグメンテーションネットワークにおいて,ドメイン不変のテキスト埋め込みをオブジェクトクエリとして統合する統合型ビジョン・ランゲージフレームワークを提案する。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より詳細な一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-16T19:05:33Z) - Set Prediction Guided by Semantic Concepts for Diverse Video Captioning [47.89731738027379]
我々は、多種多様なキャプションを意味概念に基づく集合予測問題に定式化する。
モデルが意味的に多様なキャプションを生成することを奨励するために,概念に多様性規則化用語を適用した。
提案モデルでは,妥当性と多様性の両指標を用いて,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T13:13:04Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。