論文の概要: Dictionary-based Framework for Interpretable and Consistent Object Parsing
- arxiv url: http://arxiv.org/abs/2502.19540v1
- Date: Wed, 26 Feb 2025 20:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:55.154970
- Title: Dictionary-based Framework for Interpretable and Consistent Object Parsing
- Title(参考訳): 文の解釈と一貫性のための辞書ベースのフレームワーク
- Authors: Tiezheng Zhang, Qihang Yu, Alan Yuille, Ju He,
- Abstract要約: CoCalは、辞書ベースのマスク変換器に基づく解釈可能で一貫したオブジェクト解析フレームワークである。
CoCalは、セグメンテーションで使用される既存のクラスタベースのマスクトランスフォーマーアーキテクチャを再考する。
CoCalはPartImageNetとPascal-Part-108の両方で、最先端のパフォーマンスを確立している。
- 参考スコア(独自算出の注目度): 12.688637259575778
- License:
- Abstract: In this work, we present CoCal, an interpretable and consistent object parsing framework based on dictionary-based mask transformer. Designed around Contrastive Components and Logical Constraints, CoCal rethinks existing cluster-based mask transformer architectures used in segmentation; Specifically, CoCal utilizes a set of dictionary components, with each component being explicitly linked to a specific semantic class. To advance this concept, CoCal introduces a hierarchical formulation of dictionary components that aligns with the semantic hierarchy. This is achieved through the integration of both within-level contrastive components and cross-level logical constraints. Concretely, CoCal employs a component-wise contrastive algorithm at each semantic level, enabling the contrasting of dictionary components within the same class against those from different classes. Furthermore, CoCal addresses logical concerns by ensuring that the dictionary component representing a particular part is closer to its corresponding object component than to those of other objects through a cross-level contrastive learning objective. To further enhance our logical relation modeling, we implement a post-processing function inspired by the principle that a pixel assigned to a part should also be assigned to its corresponding object. With these innovations, CoCal establishes a new state-of-the-art performance on both PartImageNet and Pascal-Part-108, outperforming previous methods by a significant margin of 2.08% and 0.70% in part mIoU, respectively. Moreover, CoCal exhibits notable enhancements in object-level metrics across these benchmarks, highlighting its capacity to not only refine parsing at a finer level but also elevate the overall quality of object segmentation.
- Abstract(参考訳): 本稿では,辞書ベースのマスク変換器をベースとした,解釈可能な一貫したオブジェクト解析フレームワークであるCoCalを提案する。
Contrastive ComponentsとLogical Constraintsを中心に設計されたCoCalは、セグメンテーションで使用される既存のクラスタベースのマスクトランスフォーマーアーキテクチャを再考する。
この概念を進めるために、CoCalはセマンティック階層と整合する辞書コンポーネントの階層的な定式化を導入した。
これは、内部レベルのコントラストコンポーネントとクロスレベルの論理的制約の両方を統合することで達成される。
具体的には、CoCalは各セマンティックレベルでコンポーネント的にコントラストのあるアルゴリズムを採用し、同じクラス内の辞書コンポーネントと異なるクラスのコンポーネントとのコントラストを可能にする。
さらに、CoCalは、特定の部分を表す辞書コンポーネントが、クロスレベルなコントラスト学習目標を通じて、他のオブジェクトのものよりも、対応するオブジェクトコンポーネントに近いことを保証することで、論理的関心事に対処する。
論理関係モデリングをさらに強化するため,部品に割り当てられた画素も対応するオブジェクトに割り当てられるべきという原理に着想を得た後処理関数を実装した。
これらのイノベーションにより、CoCalはPartImageNetとPascal-Part-108の両方で新しい最先端のパフォーマンスを確立し、それぞれmIoUの2.08%と0.70%の差で従来の手法を上回った。
さらに、CoCalはこれらのベンチマーク全体でオブジェクトレベルのメトリクスを顕著に拡張し、パースを細かなレベルで洗練するだけでなく、オブジェクトセグメンテーションの全体的な品質を高める能力を強調している。
関連論文リスト
- CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,画像間の共通部分と一意部分の識別と分割を目的とした,部分中心のセマンティック・セマンティック・セマンティック・セグメンテーションの新たな課題を紹介する。
画像間で複数のマスクを分割・推論できる最初のLVLMであるCALICOについて述べる。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文 参考訳(メタデータ) (2024-11-11T17:05:15Z) - CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - 3D Compositional Zero-shot Learning with DeCompositional Consensus [102.7571947144639]
我々は、部分的知識は観察されたオブジェクトクラスを超えて構成可能であるべきだと論じる。
本稿では、視覚から見えないオブジェクトクラスへの部分一般化の問題として、3D合成ゼロショット学習を提案する。
論文 参考訳(メタデータ) (2021-11-29T16:34:53Z) - Robust 3D Scene Segmentation through Hierarchical and Learnable
Part-Fusion [9.275156524109438]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、AR/VRといったいくつかのシーン理解アプリケーションのための基本的なビルディングブロックである。
従来の手法では、階層的で反復的な手法を用いて意味や事例情報を融合するが、文脈融合における学習性は欠如している。
本稿では,セグメンテーション・フュージョン(Seegment-Fusion)について述べる。
論文 参考訳(メタデータ) (2021-11-16T13:14:47Z) - From Pixel to Patch: Synthesize Context-aware Features for Zero-shot
Semantic Segmentation [22.88452754438478]
ゼロショットセマンティックセマンティックセマンティックセマンティクスは,カテゴリレベルのセマンティクスのみを持つ未確認オブジェクトのセマンティクスを目的としたセマンティクスである。
本研究では,コンテキスト認識機能生成ネットワーク(CaGNet)を提案する。
Pascal-VOC, Pascal-Context, COCO-stuff の実験結果から,本手法は既存のゼロショットセマンティックセマンティックセグメンテーション法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2020-09-25T13:26:30Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。