論文の概要: Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation
- arxiv url: http://arxiv.org/abs/2501.09688v1
- Date: Thu, 16 Jan 2025 17:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:04.408753
- Title: Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation
- Title(参考訳): Open-Vocabulary Part Segmentation における細粒化画像-テキスト対応とコストアグリゲーション
- Authors: Jiho Choi, Seonho Lee, Minhyun Lee, Seungho Lee, Hyunjung Shim,
- Abstract要約: Open-Vocabulary Part (OVPS) は、未確認のカテゴリにおいて、きめ細かい部分を認識するための新興分野である。
OVPSの主な課題は,部分レベルの画像テキスト対応の整合性の難しさと,分割対象部分の構造的理解の欠如である。
本稿では,DINOから,オブジェクト認識型部分的コストアグリゲーション,構成的損失,構造的ガイダンスを統合した新しいフレームワークであるPartCATSegを提案する。
- 参考スコア(独自算出の注目度): 24.071471822239854
- License:
- Abstract: Open-Vocabulary Part Segmentation (OVPS) is an emerging field for recognizing fine-grained parts in unseen categories. We identify two primary challenges in OVPS: (1) the difficulty in aligning part-level image-text correspondence, and (2) the lack of structural understanding in segmenting object parts. To address these issues, we propose PartCATSeg, a novel framework that integrates object-aware part-level cost aggregation, compositional loss, and structural guidance from DINO. Our approach employs a disentangled cost aggregation strategy that handles object and part-level costs separately, enhancing the precision of part-level segmentation. We also introduce a compositional loss to better capture part-object relationships, compensating for the limited part annotations. Additionally, structural guidance from DINO features improves boundary delineation and inter-part understanding. Extensive experiments on Pascal-Part-116, ADE20K-Part-234, and PartImageNet datasets demonstrate that our method significantly outperforms state-of-the-art approaches, setting a new baseline for robust generalization to unseen part categories.
- Abstract(参考訳): Open-Vocabulary Part Segmentation (OVPS) は、未確認のカテゴリにおけるきめ細かい部分を認識する分野である。
OVPSにおける主な課題は,(1)部分レベルの画像テキスト対応の整合が困難であること,(2)分割対象部分の構造的理解の欠如である。
これらの課題に対処するため,DINO による部分的コスト集約,構成的損失,構造的ガイダンスを統合した新たなフレームワークである PartCATSeg を提案する。
このアプローチでは、オブジェクトと部分レベルのコストを別々に処理し、部分レベルのセグメンテーションの精度を向上する、不整合なコスト集約戦略を採用している。
また、限定された部分アノテーションを補うことで、部分オブジェクトの関係をよりよく捉えられるように構成的損失を導入します。
さらに、DINOの機能による構造的ガイダンスは、境界線と部分間理解を改善している。
Pascal-Part-116, ADE20K-Part-234, PartImageNetデータセットの大規模な実験により, この手法が最先端の手法を著しく上回ることを示した。
関連論文リスト
- A Bottom-Up Approach to Class-Agnostic Image Segmentation [4.086366531569003]
本稿では,クラスに依存しないセグメンテーション問題に対処するためのボトムアップの新たな定式化を提案する。
我々は、その特徴空間の射影球に直接ネットワークを監督する。
ボトムアップの定式化は、クラスベースのセグメンテーション用に設計されたデータセットで訓練された場合でも、例外的な一般化能力を示す。
論文 参考訳(メタデータ) (2024-09-20T17:56:02Z) - Understanding Multi-Granularity for Open-Vocabulary Part Segmentation [24.071471822239854]
Open-vocabulary part segmentation (OVPS) は、多種多様な未確認語彙を用いたきめ細かいエンティティのセグメンテーションに焦点を当てた新興研究分野である。
本研究は,部分識別の知識に基づく性質を反映して,複雑な境界と多様な粒度による部分分割の複雑さを強調した。
一般化された部分とオブジェクトレベルのコンテキストを活用する新しいフレームワークであるPartCLIPSegを提案する。
論文 参考訳(メタデータ) (2024-06-17T10:11:28Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Mitigating the Effect of Incidental Correlations on Part-based Learning [50.682498099720114]
部分ベースの表現は、より解釈可能で、限られたデータでより一般化できる。
パートベース表現のための2つの革新的な正規化手法を提案する。
我々は、ベンチマークデータセット上の数ショットの学習タスクに対して、最先端(SoTA)パフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-30T13:44:48Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Seg&Struct: The Interplay Between Part Segmentation and Structure
Inference for 3D Shape Parsing [23.8184215719129]
Seg&Structは、部分分割と構造推論の相互作用を活用する教師あり学習フレームワークである。
本稿では、これらの2つのタスクを最大限に組み合わせて、パフォーマンス向上のために監督をフル活用する方法について述べる。
論文 参考訳(メタデータ) (2022-11-01T10:59:15Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Affinity-aware Compression and Expansion Network for Human Parsing [6.993481561132318]
ACENetは、挑戦的なLIPとPascal-Person-Partデータセット上で、最先端のパフォーマンスを新たに実現している。
58.1%は、IoUがLIPベンチマークで達成されることを意味する。
論文 参考訳(メタデータ) (2020-08-24T05:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。