Fugu-MT 論文翻訳(概要): DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation

論文の概要: DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation

arxiv url: http://arxiv.org/abs/2409.15801v1
Date: Tue, 24 Sep 2024 06:51:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 08:41:18.873625
Title: DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation
Title（参考訳）: DIAL: 弱補正セマンティックセグメンテーションのための高解像度画像テキストアライメント
Authors: Soojin Jang, Jungmin Yun, Junehyoung Kwon, Eunju Lee, Youngbin Kim,
Abstract要約: 弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。 DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
参考スコア（独自算出の注目度）: 8.422110274212503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Weakly supervised semantic segmentation (WSSS) approaches typically rely on class activation maps (CAMs) for initial seed generation, which often fail to capture global context due to limited supervision from image-level labels. To address this issue, we introduce DALNet, Dense Alignment Learning Network that leverages text embeddings to enhance the comprehensive understanding and precise localization of objects across different levels of granularity. Our key insight is to employ a dual-level alignment strategy: (1) Global Implicit Alignment (GIA) to capture global semantics by maximizing the similarity between the class token and the corresponding text embeddings while minimizing the similarity with background embeddings, and (2) Local Explicit Alignment (LEA) to improve object localization by utilizing spatial information from patch tokens. Moreover, we propose a cross-contrastive learning approach that aligns foreground features between image and text modalities while separating them from the background, encouraging activation in missing regions and suppressing distractions. Through extensive experiments on the PASCAL VOC and MS COCO datasets, we demonstrate that DALNet significantly outperforms state-of-the-art WSSS methods. Our approach, in particular, allows for more efficient end-to-end process as a single-stage method.
Abstract（参考訳）: 弱教師付きセマンティックセグメンテーション (WSSS) アプローチは、通常、初期シード生成のクラスアクティベーションマップ (CAM) に依存するが、画像レベルのラベルからの監督が限られているため、グローバルなコンテキストを捉えることができないことが多い。この問題に対処するために,テキスト埋め込みを活用したDALNet, Dense Alignment Learning Networkを導入する。我々は,(1)クラストークンと対応するテキスト埋め込みの類似性を最大化しながら,クラストークンと対応するテキスト埋め込みの類似性を最大化するグローバルインプリシティアライメント(GIA),(2)パッチトークンからの空間情報を利用してオブジェクトローカライズを改善するローカル明示アライメント(LEA)という2段階アライメント戦略を採用する。さらに,画像とテキストのモダリティを背景から切り離して前景の特徴を整列させるクロスコントラスト学習手法を提案する。 PASCAL VOCおよびMS COCOデータセットに関する広範な実験を通じて、DALNetが最先端のWSSS法よりも大幅に優れていることを示す。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。

関連論文リスト

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation [12.192429756057132]
Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
論文参考訳（メタデータ） (2026-02-05T12:03:11Z)
SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization [45.19935082419337]
悪意のある画像操作は公衆の安全を脅かし、効率的な位置決め方法を必要とする。既存の弱教師付き手法は画像レベルのバイナリラベルに依存し、グローバルな分類に重点を置いている。本稿では,CLIPにおける意味非依存型プロンプト学習(SAPL)を提案し,非意味的,境界中心的なキューを意図的に符号化するテキストプロンプトを学習する。
論文参考訳（メタデータ） (2026-01-09T07:25:55Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [3.440487702095727]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。 IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文参考訳（メタデータ） (2025-04-14T01:51:29Z)
GOAL: Global-local Object Alignment Learning [7.9061560322289335]
CLIPのようなビジョン言語モデルは、画像とテキストを整列する素晴らしい機能を示している。短いキャプションと簡潔なキャプションに焦点が当てられているため、長い詳細な文章の記述に苦しむことが多い。本稿では,CLIPの長文処理能力を高める新しい微調整手法であるGOALを提案する。
論文参考訳（メタデータ） (2025-03-22T14:27:32Z)
FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文参考訳（メタデータ） (2025-01-01T15:47:04Z)
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。 RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文参考訳（メタデータ） (2024-11-24T14:14:14Z)
Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文参考訳（メタデータ） (2024-03-06T13:43:36Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
Question-Answer Cross Language Image Matching for Weakly Supervised Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-18T10:55:13Z)
Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文参考訳（メタデータ） (2023-09-22T15:44:10Z)
De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文参考訳（メタデータ） (2023-03-29T18:07:25Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文参考訳（メタデータ） (2021-06-11T17:05:56Z)
Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文参考訳（メタデータ） (2020-07-03T21:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。