論文の概要: Toward Semantic-Agnostic and Shape-Aware Vision-Language Segmentation Models
- arxiv url: http://arxiv.org/abs/2605.28348v1
- Date: Wed, 27 May 2026 11:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.017153
- Title: Toward Semantic-Agnostic and Shape-Aware Vision-Language Segmentation Models
- Title(参考訳): セマンティック・アグノスティック・シェイプ・アウェア・ビジョン・ランゲージ・セグメンテーションモデルに向けて
- Authors: Corentin Seutin, Mohamed Amine Ettaki, Michaël Clément, Pierrick Coupé, Rémi Giraud,
- Abstract要約: 視覚言語セグメンテーションモデルは、最近、自然言語で表現される高レベルな意味圏オブジェクトを活用することで、強力なパフォーマンスを実現している。
セグマンティック・アグノスティックなaNd形状認識(SANSA)セグマンティック・アグノスティックな形状認識(Semantic-AgnosticaNd Shape-Aware)セグマンティック・セグマンティック(SANSA)セグメンテーション(Semantic-AgnosticaNd Shape-Aware)を導入する。
実験により、SANSAの微調整は、この新たなセグメンテーションタスクにおいて最大20%のmIoUの改善をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 0.9569208373364791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language segmentation models have recently achieved strong performance by leveraging high-level semantic object categories expressed in natural language. However, this semantic dependence limits their ability to reason about intrinsic visual properties such as shape, geometry, or texture, which are essential in many real-world applications. In this work, we introduce Semantic-Agnostic aNd Shape-Aware (SANSA) segmentation, a new paradigm that requires segmentation models to operate solely from non-semantic textual descriptions. To this end, we propose two strategies to generate SANSA segmentation prompts based on either dictionary constraints or example guidance, both generating semantic-agnostic textual descriptions. These prompts are then used to finetune segmentation models under semantic-agnostic supervision. Experiments show that finetuning on SANSA prompts yields up to a 20% mIoU improvement on this new segmentation task, compared to pretrained state-of-the-art models, while maintaining strong performance on standard semantic prompts. These results highlight the importance of low- and mid-level visual reasoning for improving the generalization and controllability of vision-language segmentation models.
- Abstract(参考訳): 視覚言語セグメンテーションモデルは、最近、自然言語で表現された高レベルなセマンティックオブジェクトカテゴリを活用することで、強力なパフォーマンスを実現している。
しかし、この意味依存は、多くの現実世界の応用において不可欠である形状、幾何学、テクスチャといった固有の視覚特性を推論する能力を制限する。
本研究では,非意味的テキスト記述からのみ動作するセグメンテーションモデルを必要とする新しいパラダイムであるSemantic-Agnostic aNd Shape-Aware(SANSA)セグメンテーションを紹介する。
そこで本研究では,辞書の制約や例示に基づいてSANSAセグメンテーションプロンプトを生成するための2つの手法を提案する。
これらのプロンプトは、セグメンテーションモデルを意味論的監督の下で微調整するために使用される。
実験によると、SANSAの微調整プロンプトは、事前訓練された最先端モデルと比較して、この新たなセグメンテーションタスクで最大20%のmIoU改善を達成し、標準的なセグメンテーションプロンプトの強いパフォーマンスを維持している。
これらの結果は、視覚言語セグメンテーションモデルの一般化と制御性を改善するために、低レベルおよび中レベルの視覚的推論の重要性を強調している。
関連論文リスト
- Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation [52.8308168727975]
Seg-Agentは完全にトレーニング不要のフレームワークで、Explicit Multimodal Chain-of-Reasoningの先駆者です。
提案手法は, 生成, 選択, 洗練の3段階からなる対話型視覚推論ループを構築する。
various-LangSegは、明示的なセマンティック、ジェネリックオブジェクト、推論誘導セグメンテーションタスクをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T03:36:44Z) - Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。