論文の概要: Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2501.04696v1
- Date: Wed, 08 Jan 2025 18:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:48.773194
- Title: Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation
- Title(参考訳): ドメイン適応型オープン語彙セグメンテーションのためのテスト時間最適化
- Authors: Ulindu De Silva, Didula Samaraweera, Sasini Wanigathunga, Kavindu Kariyawasam, Kanchana Ranasinghe, Muzammal Naseer, Ranga Rodrigo,
- Abstract要約: ゼロショットでオープンなセマンティックセマンティックセグメンテーション(OVSS)のためのフレームワークであるSeg-TTOを提案する。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
我々は、Seg-TTOを最先端の3つのOVSSアプローチと統合し、様々な専門ドメインをカバーする22の課題のOVSSタスクを評価する。
- 参考スコア(独自算出の注目度): 15.941958367737408
- License:
- Abstract: We present Seg-TTO, a novel framework for zero-shot, open-vocabulary semantic segmentation (OVSS), designed to excel in specialized domain tasks. While current open vocabulary approaches show impressive performance on standard segmentation benchmarks under zero-shot settings, they fall short of supervised counterparts on highly domain-specific datasets. We focus on segmentation-specific test-time optimization to address this gap. Segmentation requires an understanding of multiple concepts within a single image while retaining the locality and spatial structure of representations. We propose a novel self-supervised objective adhering to these requirements and use it to align the model parameters with input images at test time. In the textual modality, we learn multiple embeddings for each category to capture diverse concepts within an image, while in the visual modality, we calculate pixel-level losses followed by embedding aggregation operations specific to preserving spatial structure. Our resulting framework termed Seg-TTO is a plug-in-play module. We integrate Seg-TTO with three state-of-the-art OVSS approaches and evaluate across 22 challenging OVSS tasks covering a range of specialized domains. Our Seg-TTO demonstrates clear performance improvements across these establishing new state-of-the-art. Code: https://github.com/UlinduP/SegTTO.
- Abstract(参考訳): 我々は、特殊ドメインタスクを最適化するために設計された、ゼロショットでオープンなセマンティックセマンティックセマンティックセマンティクス(OVSS)のための新しいフレームワークであるSeg-TTOを提案する。
現在のオープンボキャブラリアプローチでは、ゼロショット設定下での標準セグメンテーションベンチマークでは印象的なパフォーマンスを示しているが、ドメイン固有のデータセットでは、教師付きセグメンテーションには達していない。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
セグメンテーションは、表現の局所性と空間構造を維持しながら、1つの画像内の複数の概念を理解する必要がある。
本稿では,これらの要件を順守し,モデルパラメータをテスト時に入力画像と整合させる手法を提案する。
テキストモダリティでは、各カテゴリの複数の埋め込みを学習し、画像内の様々な概念をキャプチャし、視覚的モダリティでは、ピクセルレベルの損失を計算し、次いで空間構造を保存するための埋め込みアグリゲーション操作を行う。
結果として、Seg-TTOと呼ばれるフレームワークは、プラグインモジュールです。
我々は、Seg-TTOを最先端の3つのOVSSアプローチと統合し、様々な専門ドメインをカバーする22の課題のOVSSタスクを評価する。
当社のSeg-TTOでは,新たな最先端の確立によるパフォーマンス向上を実証しています。
コード:https://github.com/UlinduP/SegTTO
関連論文リスト
- Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。
OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。
我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文 参考訳(メタデータ) (2024-12-12T14:53:16Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-30T08:42:49Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。