Fugu-MT 論文翻訳(概要): SimCon Loss with Multiple Views for Text Supervised Semantic Segmentation

論文の概要: SimCon Loss with Multiple Views for Text Supervised Semantic Segmentation

arxiv url: http://arxiv.org/abs/2302.03432v1
Date: Tue, 7 Feb 2023 12:36:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 16:35:20.646353
Title: SimCon Loss with Multiple Views for Text Supervised Semantic Segmentation
Title（参考訳）: テキスト教師付き意味セグメンテーションのための複数ビューによるsimconロス
Authors: Yash Patel, Yusheng Xie, Yi Zhu, Srikar Appalaraju, R. Manmatha
Abstract要約: Webデータから画像テキストのアライメントに頼ることによって、画像のセグメンテーションを純粋に行うことは、データのノイズによる準最適パフォーマンスにつながる可能性がある。そこで本研究では,モダナル内類似性を考慮に入れた新たな損失関数SimConを提案する。
参考スコア（独自算出の注目度）: 10.735102459660057
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning to segment images purely by relying on the image-text alignment from web data can lead to sub-optimal performance due to noise in the data. The noise comes from the samples where the associated text does not correlate with the image's visual content. Instead of purely relying on the alignment from the noisy data, this paper proposes a novel loss function termed SimCon, which accounts for intra-modal similarities to determine the appropriate set of positive samples to align. Further, using multiple views of the image (created synthetically) for training and combining the SimCon loss with it makes the training more robust. This version of the loss is termed MV-SimCon. The empirical results demonstrate that using the proposed loss function leads to consistent improvements on zero-shot, text supervised semantic segmentation and outperforms state-of-the-art by $+3.0\%$, $+3.3\%$ and $+6.9\%$ on PASCAL VOC, PASCAL Context and MSCOCO, respectively. With test time augmentations, we set a new record by improving these results further to $58.7\%$, $26.6\%$, and $33.3\%$ on PASCAL VOC, PASCAL Context, and MSCOCO, respectively. In addition, using the proposed loss function leads to robust training and faster convergence.
Abstract（参考訳）: Webデータから画像テキストのアライメントに頼ることによって、画像のセグメンテーションを純粋に行うことは、データのノイズによる準最適パフォーマンスにつながる可能性がある。ノイズは、関連するテキストが画像の視覚的内容と相関しないサンプルから生じる。本稿では,ノイズデータからのアライメントに純粋に依存するのではなく,モード内類似性を考慮した新しい損失関数simconを提案する。さらに、画像の複数のビュー(合成された)をトレーニングに使用し、SimConの損失と組み合わせることで、トレーニングをより堅牢にする。このバージョンはMV-SimConと呼ばれている。実験の結果、提案された損失関数を使用することで、ゼロショット、テキスト教師ありセマンティックセグメンテーションの一貫性が向上し、それぞれ$+3.0\%$、$+3.3\%$、$+6.9\%$ on PASCAL VOC、PASCAL Context、MSCOCOを上回ります。テスト時間の増大により、これらの結果をさらに改善し、PASCAL VOC、PASCAL Context、MSCOCOで58.7\%、26.6\%、33.3\%にそれぞれ改善した。さらに、提案した損失関数を用いることで、堅牢なトレーニングとより高速な収束につながる。

関連論文リスト

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search [2.3099448395832956]
大規模テキストイメージデータセットは、オンラインの共起物から作成される。既存の手法は、しばしばノイズを増幅する負のサンプルに焦点を当てる。キー特徴セレクタ(KFS)と新しい損失関数であるDSH-Loss(Dynamic Softmax Hinge Loss)を備える動的不確実性とアライメントフレームワークを提案する。実験により,本手法は耐雑音性が高く,低雑音・高雑音両シナリオの検索性能が向上することが示された。
論文参考訳（メタデータ） (2025-05-10T08:35:36Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。本稿では,両者の相違に対処するための2段階の枠組みを提案する。 MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-31T08:49:05Z)
$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文参考訳（メタデータ） (2024-07-25T15:38:16Z)
Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。 TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文参考訳（メタデータ） (2023-10-27T10:52:50Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。 DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文参考訳（メタデータ） (2023-07-19T17:47:12Z)
Rethinking Generalization in Few-Shot Classification [28.809141478504532]
単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
論文参考訳（メタデータ） (2022-06-15T03:05:21Z)
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文参考訳（メタデータ） (2022-04-29T13:38:42Z)
USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。 USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文参考訳（メタデータ） (2021-09-29T20:48:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。