論文の概要: Understanding Multi-Granularity for Open-Vocabulary Part Segmentation
- arxiv url: http://arxiv.org/abs/2406.11384v2
- Date: Sat, 02 Nov 2024 11:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:56:29.611428
- Title: Understanding Multi-Granularity for Open-Vocabulary Part Segmentation
- Title(参考訳): 開語彙部分分割のための多粒度理解
- Authors: Jiho Choi, Seonho Lee, Seungho Lee, Minhyun Lee, Hyunjung Shim,
- Abstract要約: Open-vocabulary part segmentation (OVPS) は、多種多様な未確認語彙を用いたきめ細かいエンティティのセグメンテーションに焦点を当てた新興研究分野である。
本研究は,部分識別の知識に基づく性質を反映して,複雑な境界と多様な粒度による部分分割の複雑さを強調した。
一般化された部分とオブジェクトレベルのコンテキストを活用する新しいフレームワークであるPartCLIPSegを提案する。
- 参考スコア(独自算出の注目度): 24.071471822239854
- License:
- Abstract: Open-vocabulary part segmentation (OVPS) is an emerging research area focused on segmenting fine-grained entities using diverse and previously unseen vocabularies. Our study highlights the inherent complexities of part segmentation due to intricate boundaries and diverse granularity, reflecting the knowledge-based nature of part identification. To address these challenges, we propose PartCLIPSeg, a novel framework utilizing generalized parts and object-level contexts to mitigate the lack of generalization in fine-grained parts. PartCLIPSeg integrates competitive part relationships and attention control, alleviating ambiguous boundaries and underrepresented parts. Experimental results demonstrate that PartCLIPSeg outperforms existing state-of-the-art OVPS methods, offering refined segmentation and an advanced understanding of part relationships within images. Through extensive experiments, our model demonstrated a significant improvement over the state-of-the-art models on the Pascal-Part-116, ADE20K-Part-234, and PartImageNet datasets.
- Abstract(参考訳): Open-vocabulary part segmentation (OVPS) は、多種多様な未確認語彙を用いたきめ細かいエンティティのセグメンテーションに焦点を当てた新興研究分野である。
本研究は,部分識別の知識に基づく性質を反映して,複雑な境界と多様な粒度による部分分割の複雑さを強調した。
これらの課題に対処するために、一般化された部分とオブジェクトレベルのコンテキストを活用する新しいフレームワークであるPartCLIPSegを提案し、粒度の細かい部分の一般化の欠如を軽減する。
PartCLIPSegは、競合する部分の関係と注意制御を統合し、曖昧な境界と表現不足を緩和する。
実験により、PartCLIPSegは既存のOVPS法よりも優れており、精巧なセグメンテーションと画像内の部分関係の高度な理解を提供する。
大規模な実験により,Pascal-Part-116,ADE20K-Part-234,PartImageNetデータセットの最先端モデルよりも大幅に改善された。
関連論文リスト
- A Bottom-Up Approach to Class-Agnostic Image Segmentation [4.086366531569003]
本稿では,クラスに依存しないセグメンテーション問題に対処するためのボトムアップの新たな定式化を提案する。
我々は、その特徴空間の射影球に直接ネットワークを監督する。
ボトムアップの定式化は、クラスベースのセグメンテーション用に設計されたデータセットで訓練された場合でも、例外的な一般化能力を示す。
論文 参考訳(メタデータ) (2024-09-20T17:56:02Z) - Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - OV-PARTS: Towards Open-Vocabulary Part Segmentation [31.136262413989858]
多様な物体の部分の分割と認識は、様々なコンピュータビジョンやロボットタスクにまたがるアプリケーションにおいて重要な能力である。
本稿では,これらの課題を調査・解決するためのOpen-Vocabulary Part (OV-PARTS)ベンチマークを提案する。
OV-PARTSには、Pascal-Part-116とADE20K--234という2つの公開データセットの洗練されたバージョンが含まれている。さらに、Generalized Zero-Shot Partアナログ、Cross-Dataset Part、Few-Shot Partという3つの特定のタスクもカバーしている。
論文 参考訳(メタデータ) (2023-10-08T10:28:42Z) - Mitigating the Effect of Incidental Correlations on Part-based Learning [50.682498099720114]
部分ベースの表現は、より解釈可能で、限られたデータでより一般化できる。
パートベース表現のための2つの革新的な正規化手法を提案する。
我々は、ベンチマークデータセット上の数ショットの学習タスクに対して、最先端(SoTA)パフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-30T13:44:48Z) - PartSeg: Few-shot Part Segmentation via Part-aware Prompt Learning [44.48704588318053]
マルチモーダル学習に基づくパートセグメンテーションのためのパートセグと呼ばれる新しい手法を開発した。
PartImageNetとPascal$_$Partデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-24T13:03:42Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Unsupervised Co-part Segmentation through Assembly [42.874278526843305]
画像からのコパートセグメンテーションのための教師なし学習手法を提案する。
我々はビデオに埋め込まれた動作情報を活用し、意味のある対象をセグメント化する潜在表現を明示的に抽出する。
提案手法は,多種多様なベンチマークにおける最先端のアプローチよりも優れた,有意義でコンパクトな部分分割を実現することができることを示す。
論文 参考訳(メタデータ) (2021-06-10T16:22:53Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。