Fugu-MT 論文翻訳(概要): CRIS: CLIP-Driven Referring Image Segmentation

論文の概要: CRIS: CLIP-Driven Referring Image Segmentation

arxiv url: http://arxiv.org/abs/2111.15174v1
Date: Tue, 30 Nov 2021 07:29:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 15:07:02.456143
Title: CRIS: CLIP-Driven Referring Image Segmentation
Title（参考訳）: cris: クリップ駆動参照画像セグメンテーション
Authors: Zhaoqing Wang, Yu Lu, Qiang Li, Xunqiang Tao, Yandong Guo, Mingming Gong, Tongliang Liu
Abstract要約: エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
参考スコア（独自算出の注目度）: 71.56466057776086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring image segmentation aims to segment a referent via a natural linguistic expression.Due to the distinct data properties between text and image, it is challenging for a network to well align text and pixel-level features. Existing approaches use pretrained models to facilitate learning, yet separately transfer the language/vision knowledge from pretrained models, ignoring the multi-modal corresponding information. Inspired by the recent advance in Contrastive Language-Image Pretraining (CLIP), in this paper, we propose an end-to-end CLIP-Driven Referring Image Segmentation framework (CRIS). To transfer the multi-modal knowledge effectively, CRIS resorts to vision-language decoding and contrastive learning for achieving the text-to-pixel alignment. More specifically, we design a vision-language decoder to propagate fine-grained semantic information from textual representations to each pixel-level activation, which promotes consistency between the two modalities. In addition, we present text-to-pixel contrastive learning to explicitly enforce the text feature similar to the related pixel-level features and dissimilar to the irrelevances. The experimental results on three benchmark datasets demonstrate that our proposed framework significantly outperforms the state-of-the-art performance without any post-processing. The code will be released.
Abstract（参考訳）: 画像のセグメンテーションは,テキストと画像の異なるデータ特性により,テキストとピクセルレベルの特徴を適切に整合させることが困難である。既存のアプローチでは、学習を容易にするために事前訓練されたモデルを使用しているが、事前訓練されたモデルから言語/ビジョンの知識を別々に転送し、マルチモーダル対応情報を無視している。本稿では,近年のコントラスト型言語イメージプリトレーニング(clip)の進展に触発されて,クリップ駆動参照画像セグメンテーションフレームワーク(cris)を提案する。マルチモーダル知識を効果的に伝達するために、crisはテキストからピクセルへのアライメントを達成するために視覚言語デコードとコントラスト学習に頼る。具体的には、テキスト表現から各ピクセルレベルのアクティベーションに微細な意味情報を伝達する視覚言語デコーダを設計し、この2つのモード間の整合性を促進する。さらに,テキストから画素へのコントラスト学習を行い,関連する画素レベルの特徴と類似したテキスト特徴を明示的に強制する。 3つのベンチマークデータセットの実験結果から,提案するフレームワークは,ポストプロセッシングを伴わずに,最先端のパフォーマンスを大幅に向上することが示された。コードはリリースされます。

関連論文リスト

Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文参考訳（メタデータ） (2023-12-14T12:39:29Z)
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。 BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文参考訳（メタデータ） (2023-11-29T07:33:38Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-10T11:54:49Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。