Fugu-MT 論文翻訳(概要): Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation

論文の概要: Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation

arxiv url: http://arxiv.org/abs/2501.04696v1
Date: Wed, 08 Jan 2025 18:58:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.724619
Title: Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation
Title（参考訳）: ドメイン適応型オープン語彙セグメンテーションのためのテスト時間最適化
Authors: Ulindu De Silva, Didula Samaraweera, Sasini Wanigathunga, Kavindu Kariyawasam, Kanchana Ranasinghe, Muzammal Naseer, Ranga Rodrigo,
Abstract要約: ゼロショットでオープンなセマンティックセマンティックセグメンテーション(OVSS)のためのフレームワークであるSeg-TTOを提案する。このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。我々は、Seg-TTOを最先端の3つのOVSSアプローチと統合し、様々な専門ドメインをカバーする22の課題のOVSSタスクを評価する。
参考スコア（独自算出の注目度）: 15.941958367737408
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Seg-TTO, a novel framework for zero-shot, open-vocabulary semantic segmentation (OVSS), designed to excel in specialized domain tasks. While current open vocabulary approaches show impressive performance on standard segmentation benchmarks under zero-shot settings, they fall short of supervised counterparts on highly domain-specific datasets. We focus on segmentation-specific test-time optimization to address this gap. Segmentation requires an understanding of multiple concepts within a single image while retaining the locality and spatial structure of representations. We propose a novel self-supervised objective adhering to these requirements and use it to align the model parameters with input images at test time. In the textual modality, we learn multiple embeddings for each category to capture diverse concepts within an image, while in the visual modality, we calculate pixel-level losses followed by embedding aggregation operations specific to preserving spatial structure. Our resulting framework termed Seg-TTO is a plug-in-play module. We integrate Seg-TTO with three state-of-the-art OVSS approaches and evaluate across 22 challenging OVSS tasks covering a range of specialized domains. Our Seg-TTO demonstrates clear performance improvements across these establishing new state-of-the-art. Code: https://github.com/UlinduP/SegTTO.
Abstract（参考訳）: 我々は、特殊ドメインタスクを最適化するために設計された、ゼロショットでオープンなセマンティックセマンティックセマンティックセマンティクス(OVSS)のための新しいフレームワークであるSeg-TTOを提案する。現在のオープンボキャブラリアプローチでは、ゼロショット設定下での標準セグメンテーションベンチマークでは印象的なパフォーマンスを示しているが、ドメイン固有のデータセットでは、教師付きセグメンテーションには達していない。このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。セグメンテーションは、表現の局所性と空間構造を維持しながら、1つの画像内の複数の概念を理解する必要がある。本稿では,これらの要件を順守し,モデルパラメータをテスト時に入力画像と整合させる手法を提案する。テキストモダリティでは、各カテゴリの複数の埋め込みを学習し、画像内の様々な概念をキャプチャし、視覚的モダリティでは、ピクセルレベルの損失を計算し、次いで空間構造を保存するための埋め込みアグリゲーション操作を行う。結果として、Seg-TTOと呼ばれるフレームワークは、プラグインモジュールです。我々は、Seg-TTOを最先端の3つのOVSSアプローチと統合し、様々な専門ドメインをカバーする22の課題のOVSSタスクを評価する。当社のSeg-TTOでは,新たな最先端の確立によるパフォーマンス向上を実証しています。コード:https://github.com/UlinduP/SegTTO

関連論文リスト

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation [12.192429756057132]
Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
論文参考訳（メタデータ） (2026-02-05T12:03:11Z)
No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文参考訳（メタデータ） (2025-07-03T16:59:01Z)
One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文参考訳（メタデータ） (2025-03-03T03:50:54Z)
USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文参考訳（メタデータ） (2024-06-07T21:41:18Z)
A Lightweight Clustering Framework for Unsupervised Semantic Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2023-11-30T15:33:42Z)
SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。 SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文参考訳（メタデータ） (2023-11-24T18:59:42Z)
AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文参考訳（メタデータ） (2023-05-28T16:28:49Z)
Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文参考訳（メタデータ） (2023-04-13T17:59:40Z)
FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文参考訳（メタデータ） (2023-03-30T08:42:49Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation GAN [27.936725483892076]
本稿では,画像翻訳とインスタンスセグメンテーションを共同で行うCysic Generative Adrial Network(CySGAN)を提案する。注記電子顕微鏡(en:Annotated electron microscopy, EM)画像とラベルなし拡張顕微鏡(en:Unlabeled expansion microscopy, ExM)データを用いて, ニューロンの3次元セグメンテーションの課題についてベンチマークを行った。
論文参考訳（メタデータ） (2022-04-06T20:46:39Z)
Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。 FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文参考訳（メタデータ） (2022-03-29T16:14:40Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。