論文の概要: One-shot In-context Part Segmentation
- arxiv url: http://arxiv.org/abs/2503.01144v1
- Date: Mon, 03 Mar 2025 03:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.807542
- Title: One-shot In-context Part Segmentation
- Title(参考訳): One-shot In-context Part Segmentation
- Authors: Zhenqi Dai, Ting Liu, Xingxing Zhang, Yunchao Wei, Yanning Zhang,
- Abstract要約: パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。
私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
- 参考スコア(独自算出の注目度): 97.77292483684877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the One-shot In-context Part Segmentation (OIParts) framework, designed to tackle the challenges of part segmentation by leveraging visual foundation models (VFMs). Existing training-based one-shot part segmentation methods that utilize VFMs encounter difficulties when faced with scenarios where the one-shot image and test image exhibit significant variance in appearance and perspective, or when the object in the test image is partially visible. We argue that training on the one-shot example often leads to overfitting, thereby compromising the model's generalization capability. Our framework offers a novel approach to part segmentation that is training-free, flexible, and data-efficient, requiring only a single in-context example for precise segmentation with superior generalization ability. By thoroughly exploring the complementary strengths of VFMs, specifically DINOv2 and Stable Diffusion, we introduce an adaptive channel selection approach by minimizing the intra-class distance for better exploiting these two features, thereby enhancing the discriminatory power of the extracted features for the fine-grained parts. We have achieved remarkable segmentation performance across diverse object categories. The OIParts framework not only eliminates the need for extensive labeled data but also demonstrates superior generalization ability. Through comprehensive experimentation on three benchmark datasets, we have demonstrated the superiority of our proposed method over existing part segmentation approaches in one-shot settings.
- Abstract(参考訳): 本稿では,視覚的基礎モデル(VFM)を活用することで,部分分割の課題に対処するためのワンショット・インコンテキスト・パート・セグメンテーション(OIParts)フレームワークを提案する。
既存のトレーニングベースでVFMを利用したワンショット部分分割法では、ワンショット画像とテスト画像が外観や視点に有意なばらつきを示す場合や、テスト画像内の物体が部分的に見える場合など、困難に直面する。
単発例でのトレーニングは、しばしば過度に適合し、それによってモデルの一般化能力を損なう。
我々のフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに新しいアプローチを提供し、より優れた一般化能力を備えた正確なセグメンテーションのために、単一のインコンテキストの例しか必要としない。
VFMの相補的強度、特にDINOv2と安定拡散を徹底的に探求することにより、これらの2つの特徴をより有効活用するためにクラス内距離を最小化し、抽出した特徴の微粒化に対する識別力を高める適応チャネル選択手法を導入する。
我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
OIPartsフレームワークは、広範なラベル付きデータの必要性をなくすだけでなく、より優れた一般化能力を示す。
3つのベンチマークデータセットの総合的な実験を通じて,提案手法が既存の部分分割手法よりも1ショット設定で優れていることを実証した。
関連論文リスト
- Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - A Bottom-Up Approach to Class-Agnostic Image Segmentation [4.086366531569003]
本稿では,クラスに依存しないセグメンテーション問題に対処するためのボトムアップの新たな定式化を提案する。
我々は、その特徴空間の射影球に直接ネットワークを監督する。
ボトムアップの定式化は、クラスベースのセグメンテーション用に設計されたデータセットで訓練された場合でも、例外的な一般化能力を示す。
論文 参考訳(メタデータ) (2024-09-20T17:56:02Z) - Image Segmentation in Foundation Model Era: A Survey [95.60054312319939]
イメージセグメンテーションにおける現在の研究は、異なる特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Learning with Free Object Segments for Long-Tailed Instance Segmentation [15.563842274862314]
インスタンスセグメントの豊富さは、オブジェクト中心のIm-ageから自由に得ることができる。
これらの知見に触発されて,これらの「自由」オブジェクトセグメントの抽出と活用を目的としたFreeSegを提案する。
FreeSegは、まれなオブジェクトカテゴリのセグメンテーションにおける最先端の精度を達成する。
論文 参考訳(メタデータ) (2022-02-22T19:06:16Z) - A Self-Distillation Embedded Supervised Affinity Attention Model for
Few-Shot Segmentation [18.417460995287257]
そこで本研究では,少数ショットセグメンテーションタスクの性能向上のために,自己拡張型教師付きアフィニティアフィニティアテンションモデルを提案する。
我々のモデルは既存の手法と比較して性能を著しく改善する。
COCO-20iデータセットでは、新しい最先端結果が得られる。
論文 参考訳(メタデータ) (2021-08-14T18:16:12Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。