論文の概要: Decomposed Vision-Language Alignment for Fine-Grained Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2605.15942v1
- Date: Fri, 15 May 2026 13:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.292199
- Title: Decomposed Vision-Language Alignment for Fine-Grained Open-Vocabulary Segmentation
- Title(参考訳): 細粒開語彙分割のための分解型視覚言語アライメント
- Authors: Chenhao Wang, Yingrui Ji, Yu Meng, Yao Zhu,
- Abstract要約: 開語彙セグメンテーションモデルは、しばしばカテゴリオブジェクトと属性の目に見えない組み合わせに一般化するのに苦労する。
本稿では、テキストプロンプトを概念トークンと複数の属性トークンに分解する分解視覚言語アライメントフレームワークを提案する。
機能レベルでは,属性固有のゲーティングマップを生成し,情報を乗法的に融合する機能拡張型クロスアテンションモジュールを導入する。
- 参考スコア(独自算出の注目度): 16.594496639787195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary segmentation models often struggle to generalize to unseen combinations of object categories and attributes, because fine-grained descriptions are typically encoded as holistic sentences that entangle multiple semantic units. We propose a Decomposed Vision-Language Alignment framework that explicitly factorizes textual prompts into a concept token and multiple attribute tokens, enabling separate cross-modal interactions for each semantic unit. At the feature level, we introduce a Feature-Gated Cross-Attention module that generates attribute-specific gating maps to fuse information in a multiplicative manner, effectively enforcing compositional semantics. At the scoring level, per-token similarities are aggregated in log-space, producing a stable and interpretable compositional matching. The method can be seamlessly integrated into existing transformer-based segmentation architectures and significantly improves generalization to unseen attribute-category compositions in fine-grained open-vocabulary segmentation benchmarks.
- Abstract(参考訳): オープン語彙のセグメンテーションモデルはしばしば、オブジェクトのカテゴリと属性の見当たらない組み合わせに一般化するのに苦労する。
本稿では,テキストのプロンプトを概念トークンと複数の属性トークンに明示的に分解し,各意味単位に対する相互モーダルな相互作用を可能にする,分解型視覚言語アライメントフレームワークを提案する。
特徴レベルでは、属性固有のゲーティングマップを生成して、情報を乗法的に融合させ、構成意味論を効果的に強制する機能付きクロスアテンションモジュールを導入する。
スコアリングレベルでは、トーケン毎の類似性をログ空間に集約し、安定かつ解釈可能な合成マッチングを生成する。
この手法は、既存のトランスフォーマーベースのセグメンテーションアーキテクチャにシームレスに統合することができ、細粒度のオープン語彙セグメンテーションベンチマークにおいて、見つからない属性カテゴリ構成への一般化を大幅に改善する。
関連論文リスト
- PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning [86.58227205147546]
合成ゼロショット学習(OV-CZSL)の目的は、オープン語彙設定において反復対象の合成を認識することである。
本研究では,SPA(Structure-Aware Prompt Adaptation)法を提案する。
論文 参考訳(メタデータ) (2026-03-04T07:54:28Z) - Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルは交換可能なトークンの概念を欠いている。
我々は、この機械学習問題を形式化し、α-共分散を導入する。
本研究は,交換可能なトークン表現を学習可能な言語モデルの設計基盤を確立した。
論文 参考訳(メタデータ) (2024-10-22T16:34:36Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - DiffCloth: Diffusion Based Garment Synthesis and Manipulation via
Structural Cross-modal Semantic Alignment [124.57488600605822]
クロスモーダルな衣料品の合成と操作は、ファッションデザイナーが衣料品を作る方法に大きな恩恵をもたらすだろう。
クロスモーダルな衣服合成と操作のための拡散型パイプラインDiffClothを紹介する。
CM-Fashionベンチマークの実験により、DiffClothはどちらも最先端の衣服合成結果を得ることが示された。
論文 参考訳(メタデータ) (2023-08-22T05:43:33Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。