論文の概要、ライセンス

# (参考訳) 参照表現の弱教師付きセグメンテーション [全文訳有]

Weakly-supervised segmentation of referring expressions ( http://arxiv.org/abs/2205.04725v2 )

ライセンス: CC BY 4.0
Robin Strudel, Ivan Laptev, Cordelia Schmid(参考訳) ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。 本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。 しかし、完全な教師付きセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。 そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。 本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。 得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。 我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。 TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。

Visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. In this work we address image segmentation from referring expressions, a problem that has so far only been addressed in a fully-supervised setting. A fully-supervised setup, however, requires pixel-wise supervision and is hard to scale given the expense of manual annotation. We therefore introduce a new task of weakly-supervised image segmentation from referring expressions and propose Text grounded semantic SEGgmentation (TSEG) that learns segmentation masks directly from image-level referring expressions without pixel-level annotations. Our transformer-based method computes patch-text similarities and guides the classification objective during training with a new multi-label patch assignment mechanism. The resulting visual grounding model segments image regions corresponding to given natural language expressions. Our approach TSEG demonstrates promising results for weakly-supervised referring expression segmentation on the challenging PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when evaluated in a zero-shot setting for semantic segmentation on Pascal VOC.
公開日: Thu, 12 May 2022 07:17:56 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of 弱教師付きセグメンテーション 0.49
referring expressions Robin Strudel, Ivan Laptev, and Cordelia Schmid 表現 Robin Strudel, Ivan Laptev, Cordelia Schmid 0.40
Inria, Ecole normale sup´erieure, CNRS, Inria, Ecole normale sup ́erieure, CNRS 0.45
PSL Research University, 75005 Paris, France. フランス、パリ75005にあるpsl研究大学。 0.73
Abstract. Visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. 抽象。 ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。 0.51
In this work we address image segmentation from referring expressions, a problem that has so far only been addressed in a fully-supervised setting. 本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。 0.58
A fullysupervised setup, however, requires pixel-wise supervision and is hard to scale given the expense of manual annotation. しかし、完全に監督されたセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。 0.46
We therefore introduce a new task of weakly-supervised image segmentation from referring expressions and propose Text grounded semantic SEGgmentation (TSEG) that learns segmentation masks directly from image-level referring expressions without pixel-level annotations. そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。 0.70
Our transformer-based method computes patch-text similarities and guides the classification objective during training with a new multi-label patch assignment mechanism. 本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。 0.65
The resulting visual grounding model segments image regions corresponding to given natural language expressions. 得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。 0.63
Our approach TSEG demonstrates promising results for weakly-supervised referring expression segmentation on the challenging PhraseCut and RefCOCO datasets. 我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。 0.50
TSEG also shows competitive performance when evaluated in a zero-shot setting for semantic segmentation on Pascal VOC. TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。
訳抜け防止モード: TSEGは競争力を示す。 Pascal VOCにおけるセマンティックセグメンテーションのためのゼロショット設定の評価
0.76
Keywords: Weakly-supervised learning, referring expression segmentation, visual grounding, vision and language. キーワード:弱い教師付き学習、表現のセグメンテーション、視覚的接地、視覚、言語。 0.68
1 Introduction Image segmentation is a key component for a wide range of applications including virtual presence, virtual try on, movie post production and autonomous driving. 1 はじめに イメージセグメンテーションは、仮想プレゼンス、仮想トライオン、映画のポストプロダクション、自動運転など、幅広いアプリケーションにとって重要なコンポーネントである。 0.52
Powered by modern neural networks and supervised learning, image segmentation has been significantly advanced by recent work [9,11,42,53]. 最近のニューラルネットワークと教師付き学習によって、画像分割は[9,11,42,53]によって著しく進歩した。 0.59
While most of this work addresses semantic segmentation, the more general problem of visual grounding beyond segmentation of pre-defined object classes remains open. この作業のほとんどはセマンティクスセグメンテーションを扱っているが、事前定義されたオブジェクトクラスのセグメンテーションを超えた視覚的な接地に関するより一般的な問題は、まだ開いている。 0.56
Moreover, the majority of existing method assume full supervision and require costly pixel-wise manual labeling of training images which prevents scalability. さらに,既存の手法の大部分が全監督を前提としており,スケーラビリティを損なう訓練画像の高コストな手作業によるラベル付けが必要である。 0.53
Manual supervision has been recognized as a bottleneck in many vision tasks including object detection [5,30,37] and segmentation [2,3,18,68], text-image and text-video matching [44,47] and human action recognition [6,19]. 物体検出[5,30,37]やセグメンテーション[2,3,18,68],テキストイメージとテキストビデオマッチング[44,47],人間の行動認識(6,19)など,視覚タスクのボトルネックとして認識されている。 0.64
To this end, この目的のために 0.60
英語(論文から抽出)日本語訳スコア
2 R. Strudel 2 R. Strudel 0.43
Fig. 1: Given an image and a set of referring expressions such as man sitting on grass and wooden stairway, TSEG segments the image regions corresponding to the input expressions. 図1:芝生や木製の階段に座っている男等の画像と参照表現のセットが与えられたとき、TSEGは入力表現に対応する画像領域を分割する。 0.81
Here we show results of our approach TSEG for a test image of the PhraseCut dataset. 本稿では、PhraseCutデータセットのテスト画像に対するアプローチTSEGの結果を示す。 0.74
Contrary to other existing methods, TSEG only uses image-level referring expressions during training and hence does not require pixel-wise supervision. 他の既存の方法とは対照的に、TSEGはトレーニング中にのみ画像レベルの参照表現を使用するため、ピクセル単位での監視は不要である。 0.52
self-supervised methods explore regularities in images and videos and learn transferable visual representations without manual supervision [10,14]. 画像やビデオの規則性を探索し、手動による監督なしで転送可能な視覚表現を学習する。 0.54
Other weaklysupervised methods exploit partial and possibly noisy supervision that is either readily-available or less costly to annotate [5,44]. 他の弱い教師の手法では、[5,44]をアノテートするのに容易かコストの少ない部分的および潜在的に騒がしい監督を利用する。 0.43
In particular, weakly-supervised methods for image segmentation avoid the costly pixel-wise annotation and limit supervision to image-level labels [2,3,18,68]. 特に,画像セグメンテーションの弱制御手法は,コストのかかる画素単位のアノテーションを避け,画像レベルラベルの監督を制限する[2,3,18,68]。 0.64
Such methods, however, remain restricted to predefined sets of classes. しかし、そのようなメソッドは定義済みのクラスのセットに限定されている。 0.59
A referring expression is a short text describing a visual entity such as man sitting on grass or wooden stairway, see Fig 1. 参照表現は、芝生や木製の階段に座っている男のような視覚的な実体を記述する短いテキストである。 0.75
The task of referring expression segmentation [24,64] generalizes image segmentation from pre-defined object classes to free-form text. 式セグメンテーション [24,64]を参照するタスクは、予め定義されたオブジェクトクラスから自由形式のテキストへの画像セグメンテーションを一般化する。 0.54
Given an input image and text queries (referring expressions), one should generate image segments for each referring expression. 入力画像とテキストクエリ(式を参照)が与えられた場合、参照式ごとに画像セグメントを生成する必要がある。 0.68
This enables segmentation using compositional referring expressions such as man sitting on grass and wooden stairway. これにより、芝生の上に座っている男性や木製の階段など、作曲参照表現を用いたセグメンテーションが可能になる。 0.51
Despite the promise of scalability, existing approaches to referring expression segmentation require pixel-wise annotation and, hence, remain limited by the size of existing datasets. スケーラビリティが期待されているにもかかわらず、式セグメンテーションを参照するための既存のアプローチはピクセル単位でのアノテーションを必要とするため、既存のデータセットのサイズによって制限される。 0.47
Our work aims to advance image segmentation beyond limitations imposed by the pre-defined sets of object classes and the costly pixel-wise manual annotations. 本研究は,オブジェクトクラスの事前定義された集合とコストのかかるピクセル単位の手動アノテーションによって課される制限を超えて,画像分割を進めることを目的としている。 0.49
Towards this goal, we propose and address the new task of weaklysupervised referring expression segmentation. この目的に向けて,弱教師付き参照表現セグメンテーションの新たなタスクを提案し,対処する。 0.67
As this task comprises difficulties of the weakly-supervised segmentation and referring expression segmentation, it introduces new challenges. このタスクは、弱教師付きセグメンテーションと参照表現セグメンテーションの難しさを含むため、新しい課題がもたらされる。 0.64
In particular, existing weakly-supervised methods for image segmentation typically rely on the completeness of image-level labels, i.e., the absence of a car in the annotation implies its absence in the image. 特に、画像分割のための既存の弱い教師付き手法は、通常、画像レベルのラベルの完全性、すなわち、アノテーションに車がないことは、画像にその欠如を暗示する。 0.63
This Input: Text+ ImageOutput: Text grounded segmentationman sitting on grassblue raftwooden stairwayblack and white cow これ 入力: Text+ Image Output: Text grounded segmentationman sitting on grassblue raftwooden stairwayblack and white cow 0.60
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
3 completeness assumption does not hold for referring expression segmentation. 3 完全性仮定は表現のセグメンテーションを参照しても成立しない。 0.49
Furthermore, the vocabulary is open and compositional. さらに、語彙はオープンで構成的です。 0.68
To address the above challenges and to learn segmentation from text-based image-level supervision, we introduce a new global weighted pooling mechanism denoted as Multi-label Patch Assignment (MPA). 以上の課題に対処し、テキストベースの画像レベルの監視からセグメンテーションを学習するために、Multi-label Patch Assignment (MPA) と呼ばれる新しいグローバル重み付けプール機構を導入する。 0.69
Our method for Text grounded semantic SEGgmentation (TSEG) incorporates MPA and extends the recent transformer-based Segmenter architecture [53] to referring expression segmentation. tseg(text grounded semantic seggmentation)法はmpaを組み込んで,最近のトランスフォーマベースのセグメンテーションアーキテクチャ [53] を拡張し,表現セグメンテーションを参照する。 0.70
We validate our method and demonstrate its encouraging results for the task of weakly-supervised referring expression segmentation on the challenging PhraseCut [59] and RefCOCO [65] datasets. 本手法を検証し,難解な句カット [59] と refco [65] データセット上での参照表現セグメンテーションを弱教師有するタスクに対して,その促進効果を示す。 0.67
We also evaluate TSEG in a zero-shot setting for semantic segmentation and obtain competitive performance on the Pascal VOC dataset [16]. また、セマンティックセグメンテーションのためのゼロショット設定でTSEGを評価し、Pascal VOCデータセット[16]上で競合性能を得る。
訳抜け防止モード: 意味的セグメンテーションのためのゼロショット設定におけるTSEGの評価も行う。 Pascal VOCデータセット [16 ] で競合性能を得る。
0.67
In summary, our work makes the following three contributions. まとめると、私たちの作品は以下の3つの貢献をしています。 0.51
(i) We introduce the new task of weakly-supervised referring expression segmentation and propose an evaluation based on the PhraseCut and RefCOCO datasets. (i)弱教師付き参照表現セグメンテーションの新しいタスクを導入し,PhraseCutおよびRefCOCOデータセットに基づく評価を提案する。 0.79
(ii) We propose TSEG, a new method addressing weakly-supervised referring expression segmentation with a multi-label patch assignment score. (II)マルチラベルパッチ割り当てスコアを用いた弱教師付き参照表現セグメンテーションに対処する新しい手法TSEGを提案する。 0.74
(iii) We demonstrate advantages of TSEG through a number of ablations and experimental comparisons on the challenging PhraseCut and RefCOCO datasets. 3) FraseCut と RefCOCO のデータセットにおいて, TSEG の利点を, 数多くの改善と実験的な比較を通じて示す。 0.78
Furthermore, we demonstrate competitive results for zero shot semantic segmentation on PASCAL VOC. さらに,PASCAL VOCにおけるゼロショットセマンティックセグメンテーションの競合結果を示す。 0.61
2 Related Work Weakly-supervised semantic segmentation. 2 関連作業 弱教師付きセマンティックセグメンテーション。 0.61
Given an image as input, the goal of semantic segmentation is to identify and localize classes present in the image, e g annotate each pixel of the input image with a class label. 画像が入力として与えられると、セマンティックセグメンテーションの目標は、画像に存在するクラスを識別し、ローカライズすることであり、例えば、入力画像の各ピクセルにクラスラベルをアノテートすることである。 0.68
Weaklysupervised Semantic Segmentation (WSS) has been introduced by [68] and trains models using only image labels as supervision. 弱弱教師付きセマンティックセグメンテーション (WSS) は [68] によって導入され, イメージラベルのみをモデルとして訓練されている。 0.62
Zhou et al [68] use Class Activation Maps (CAMs) of a Fully Convolutional Network (FCN) combined with Global Average Pooling (GAP) to obtain segmentation maps with a pooling mechanism. Zhou et al [68]は、完全な畳み込みネットワーク(FCN)のクラス活性化マップ(CAM)とグローバル平均プール(GAP)を組み合わせて、プール機構を備えたセグメンテーションマップを取得する。 0.83
As CAMs tend to focus on most discriminative object parts [57], recent methods deploy more elaborate multi-stage approaches using pixel affinity [1,2], saliency estimation [17,18,27,35,56,66] or seed and expand strategies [27,33,57]. カメラがほとんどの識別対象に焦点をあてる [57] ため、近年の手法ではピクセル親和性 [1,2]、塩分推定 [17,18,27,35,56,66]、シード・アンド・展開戦略[27,33,57] を用いてより精巧な多段階アプローチを展開している。 0.49
While these methods provide improved segmentation, they require multiple standalone and often expensive networks such as saliency detectors [18,27,66] or segmentation networks based on pixel-level affinity [1,2]. これらの手法はセグメンテーションを改良する一方で、サリエンシ検出器[18,27,66]やピクセルレベルの親和性[1,2]に基づくセグメンテーションネットワークなど、複数のスタンドアロンで高額なネットワークを必要とする。 0.59
Single-stage methods have been developed based on multiple instance learning (MIL) [46] or expectation-maximiza tion (EM) [45] approaches where masks are inferred from intermediate predictions. マスクを中間予測から推測するmultiple instance learning (mil) [46] あるいは expectation-maximiza tion (em) [45] アプローチに基づいて,単段法が開発されている。 0.84
Single-stage methods have been overlooked given their inferior accuracy until the work of Araslanov et al [3] that proposed an efficient single-stage method addressing the limitations of CAMs. CAMの限界に対処する効率的な単一段階法を提案するAraslanov et al[3]の作業が終わるまで、その精度が劣っているため、シングルステージ法は見過ごされてきた。 0.64
Araslanov et al [3] introduces a global weighted pooling (GWP) mechanism which we extend in this work with a new multi-label patch assignment mechanism (MPA). Araslanov et al [3] では,新たなマルチラベルパッチ割り当て機構 (MPA) で拡張したグローバル重み付けプール機構 (GWP) を導入している。 0.83
In contrast to prior work on weakly-supervised semantic segmentation, TSEG is a single-stage 弱い教師付きセマンティックセグメンテーションに関する以前の研究とは対照的に、TSEGは単一ステージである 0.55
英語(論文から抽出)日本語訳スコア
4 R. Strudel 4 R. Strudel 0.43
method that scales to the challenging task of referring expression segmentation. 表現のセグメンテーションを参照する困難なタスクにスケールする方法。 0.66
Referring expression segmentation. 式セグメンテーションを参照。 0.66
Given an image and a referring expression, the goal of referring expression segmentation is to annotate the input image with a binary mask localizing the referring expression. 画像と参照表現が与えられた場合、参照表現セグメンテーションの目的は、入力画像に参照表現をローカライズするバイナリマスクを付加することである。 0.68
A fully-supervised method [24] proposed to first combine features of a CNN with a LSTM and then decode them with a FCN. CNNの特徴をLSTMと組み合わせてFCNで復号する完全教師付き手法[24]を提案する。 0.58
To improve segmentation masks, [64] uses a two-stage method based on Mask-RCNN [23] features combined with a LSTM. セグメンテーションマスクを改善するために,[64] は Mask-RCNN [23] 機能とLSTM を組み合わせた2段階法を用いる。 0.88
To overcome the limitation of FCN to model global context and learn richer cross-modal features, state-of-the-art approaches [13,25,63] use a decoding scheme based on cross-modal attention. グローバルコンテキストをモデル化し、よりリッチなクロスモーダル特徴を学習するFCNの限界を克服するために、[13,25,63]では、クロスモーダル注意に基づくデコードスキームを使用する。 0.53
Despite their effectiveness, these methods are fullysupervised which limits their scalability. 有効性にもかかわらず、これらの手法は拡張性を制限する完全教師付きである。 0.42
Several weakly-supervised approaches tackle detection tasks such as referring expression comprehension [7,21,40,41,60] by enforcing visual consistency [7], learning language reconstruction [40] or with a contrastive-learning objective [21]. 視覚的一貫性[7]、学習言語再構築[40]、コントラスト学習目的[21]を強制することにより、表現理解[7,21,40,41,60]を参照するなどの検出タスクに取り組む。 0.67
These methods rely on an off-the-shelf object detector, Faster-RCNN [49], to generate region proposals and are thus limited by the object detector accuracy. これらの手法は, 既製の物体検出器であるFaster-RCNN[49]に頼って領域提案を生成し, 物体検出精度に制限される。 0.73
None of these weakly-supervised methods address the problem of referring expression segmentation which is the focus of our work. これらの弱教師付き手法はいずれも,我々の研究の焦点である表現セグメンテーションを参照する問題に対処するものではない。
訳抜け防止モード: これらの弱い-教師付きメソッドが問題に対処することはない 表現のセグメンテーションは 私たちの仕事の焦点です
0.67
TSEG is a novel approach that tackles weakly-supervised referring expression segmentation based on the computation of patch-text similarities with a new multi-label patch assignment mechanism (MPA). TSEGは、新しいマルチラベルパッチ割り当て機構(MPA)によるパッチテキスト類似性の計算に基づいて、弱い教師付き参照表現セグメンテーションに取り組む新しいアプローチである。 0.77
Transformers for vision and language. 視覚と言語のためのトランスフォーマー。 0.72
Transformers [55] are now state of the art in many natural language processing (NLP) [12] and computer vision [4,11,15,42,53] tasks. トランスフォーマー [55] は、多くの自然言語処理 (nlp) [12] とコンピュータビジョン [4,11,15,42,53] タスクの最先端である。 0.70
Such methods capture long-range dependencies among tokens (patches or words) with an attention mechanism and achieve impressive results in the context of vision-language pre-training at scale with methods such as CLIP [47], VisualBERT [38], DALL-E [48] or ALIGN [28]. このような手法は,トークン(パッチや単語)間の長距離依存関係を注意機構でキャプチャし,CLIP[47],VisualBERT[38],DALL-E[48],ALIGN[28]などの手法で視覚言語事前学習のコンテキストにおいて印象的な結果を得る。 0.84
Specific to referring expressions, MDETR [29] recently proposed a method for visual grounding based on a cross-modal transformer decoder trained on a fully-supervised visual grounding task. 参照表現に特化して,MDETR [29] は,完全教師付き視覚接地タスクに基づいて訓練されたクロスモーダルトランスフォーマーデコーダに基づく視覚接地手法を提案した。 0.76
Several methods perform zero-shot semantic segmentation with pre-trained fully supervision models [20,62,67,69]. いくつかの方法は、事前訓練された完全監督モデル[20,62,67,69]でゼロショットセマンティックセグメンテーションを実行する。 0.38
Most similar to our work, GroupViT [61] relies on a large dataset of 30M image-text pairs to learn segmentation masks from text supervision, but the objective function and model architecture are different. グループViT [61]は、テキスト管理からセグメンテーションマスクを学習するために、30Mの画像テキストペアの大規模なデータセットに依存しているが、目的関数とモデルアーキテクチャは異なる。 0.76
Our TSEG approach aims to learn patch-text associations while using only image-level annotations with referring expression. 我々のTSEGアプローチは,参照表現を用いた画像レベルのアノテーションのみを用いて,パッチテキスト関連を学習することを目的としている。 0.50
TSEG builds on CLIP [47] and uses separate encoders for different modalities with a cross-modal late-interaction mechanism. TSEGはCLIP[47]上に構築され、異なるモダリティに対して異なるエンコーダを使用する。 0.55
Its segmentation module builds on Segmenter [53] which shows that interpolating patch features output by a Vision Transformer (ViT) [15] is a simple and effective way to perform semantic segmentation. セグメンテーションモジュールはSegmenter [53]上に構築されており、Vit (ViT) [15] によって出力されるパッチの補間機能は、セグメンテーションを実行するためのシンプルで効果的な方法であることを示している。
訳抜け防止モード: セグメンテーションモジュールは segmenter [53] 上に構築されており 視覚トランスフォーマ(vit)[15]により出力されるパッチ特徴の補間 セマンティックセグメンテーションを実行するためのシンプルで効果的な方法です。
0.83
Here, we extend this work to perform cross-modal segmentation. ここでは、この作業をクロスモーダルセグメンテーションに拡張する。 0.57
TSEG leverages a novel patchtext interaction mechanism to compute both image-text matching scores and pixel-level text-grounded segmentation maps in a single forward pass. TSEGは、画像テキストマッチングスコアとピクセルレベルのテキストグラウンド分割マップの両方を単一の前方パスで計算するために、新しいパッチテキストインタラクション機構を利用する。 0.62
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
5 Fig. 2: Overview of our approach TSEG. 5 図2: 当社のアプローチ TSEG の概要。 0.57
(Left) Image patches and referring expressions are mapped with transformers to patch and text embeddings and then compared by computing patch-text cosine similarity scores. (左) イメージパッチと参照表現は、パッチやテキスト埋め込みのためにトランスフォーマーでマッピングされ、パッチテキストのコサイン類似度スコアを計算して比較される。
訳抜け防止モード: (左) イメージパッチと参照表現は、パッチとテキスト埋め込みのためのトランスフォーマーでマッピングされる そして、compute patch - text cosine similarity scoreで比較する。
0.56
(Right - Training) Our global pooling mechanism with multi-label patch assignment (MPA) reduces patch-text similarity scores to image-level labels to train the model for referring expression classification. (右-訓練) マルチラベルパッチ割り当て(mpa)を用いたグローバルプーリング機構により,画像レベルラベルに対するパッチテキスト類似度スコアを低減し,表現分類のモデルをトレーニングする。 0.72
(Right - Inference) Sequences of patch scores (columns) are rearranged into 2D masks and bilinearly interpolated to obtain pixel-level referring expression masks. (右 - 推論) パッチスコア(カラム)のシーケンスを2Dマスクに再配置し、バイライン補間してピクセルレベルの参照表現マスクを得る。 0.68
3 Method TSEG takes as input an image and a number of referring expressions and outputs a confidence score (Fig. 2, top-right) along with a segmentation mask (Fig. 2, bottom-right) for each referring expression. 3方法 TSEGは画像と参照表現を入力として、各参照表現に対してセグメンテーションマスク(図2、ボトムライト)とともに信頼スコア(図2、トップライト)を出力する。
訳抜け防止モード: 3方法 TSEGは画像と参照表現を入力として、信頼スコアを出力する(図2)。 トップ - 右) セグメンテーションマスク(図2.)と共に。 bottom - right ) 各参照式について。
0.74
During training no segmentation masks are available and image-level labels are used to train referring expression segmentation (Fig. 2, top-right). 訓練中、セグメンテーションマスクは使用できず、画像レベルのラベルが参照表現セグメンテーションのトレーニングに使用される(図2:右上図)。 0.64
TSEG is based on image patch-text matching (Fig. 2 left). TSEGはイメージパッチテキストマッチングに基づいている(図2左)。 0.81
An image encoder maps the input image to a sequence of patch tokens and a text encoder maps each input referring expression to a single text token. 画像エンコーダは、入力画像をパッチトークンのシーケンスにマップし、テキストエンコーダは、各入力参照表現を1つのテキストトークンにマップする。 0.81
The tokens are then projected to a common embedding space and patchtext cosine similarities are computed as described in Section 3.1. トークンは共通の埋め込み空間に投影され、patchtext cosineの類似性はセクション3.1で記述されているように計算される。 0.66
To obtain an image-level score for each referring expression, the patch-text similarity matrix is summarized along the patch dimension. 参照表現毎に画像レベルスコアを得るには、パッチ次元に沿ってパッチテキスト類似度行列を要約する。 0.73
To do so, we introduce a novel multilabel patch assignment (MPA) mechanism described in Section 3.2. そこで我々は,セクション3.2に記載された新しいマルチラベルパッチ割り当て(MPA)機構を導入する。 0.74
The model is then trained end-to-end to predict the corresponding image-text pairs as described in Section 3.3. 次に、そのモデルをエンドツーエンドにトレーニングし、セクション3.3で記述された対応する画像テキストペアを予測する。 0.46
At inference, the patch-text matrix is simply interpolated for patches to obtain pixel-level masks as described in Section 3.3. 推測において、パッチテキスト行列は、セクション3.3に記載されているように、単にパッチを補間してピクセルレベルのマスクを得る。
訳抜け防止モード: 推論では、パッチ - テキストマトリックスは単にパッチのために補間される pixel (複数形 pixels) -3.3に記載のレベルマスク。
0.55
The choice of an appropriate global pooling mechanism is important to learn accurate segmentation maps as illustrated in Figure 3. 適切なグローバルプーリング機構の選択は、図3に示すように正確なセグメンテーションマップを学ぶために重要である。 0.74
We evaluate its impact in Section 4 and show that the novel multi-label patch assignment mechanism outperforms existing ones by a significant margin. 我々は,その影響を第4節で評価し,新しいマルチラベルパッチ割当て機構が既存手法を著しく上回っていることを示す。 0.75
Inference: Text grounded segmentationTraining : Image-Text matchingtennis courta jumping manred shirtblue shortInterpolateand SigmoidTextsPatchesS imilarityTextsPatche sSimilarityMPAPatch- Text Similarity ImageEncoder Text Encoderblue car TextEncodera jumping manText Scoresa jumping manred shirta firefighterblue car... 推論: テキスト・グラウンド・セグメンテーション・トレーニング: image-text matchingtennis courta jumping manred shirtblue shortinterpolate and sigmoidtextspatches similaritympapatch-t ext similarity imageencoder text encoder blue car textencodera jumping mantext scoresa jumping manred shirta fireer blue car.. 0.72
英語(論文から抽出)日本語訳スコア
6 R. Strudel 6 R. Strudel 0.43
3.1 Patch-text similarity matrix 3.1 パッチテキスト類似性行列 0.56
In this section we describe how to compute the similarity matrix between patches of an image and several referring expressions. 本稿では,画像のパッチと複数の参照表現との類似性行列の計算方法について述べる。 0.80
We consider an image represented by N patches p1, ..., pN and a set of L referring expressions t1, ..., tL. 我々は n 個のパッチ p1, ..., pn で表される画像と l 参照表現 t1, ..., tl の集合を考える。 0.73
Patches are encoded by tokens (x1, ..., xN ), each referring expression consists of several words and is encoded by one token (y1, ..., yL). パッチはトークン (x1, ..., xN ) でエンコードされ、それぞれの参照表現は複数の単語で構成され、1つのトークン (y1, ..., yL) でエンコードされる。 0.72
The resulting similarity matrix is S = (xi · yj)i,j ∈ RN×L. 結果の類似性行列は S = (xi · yj)i,j ∈ RN×L である。 0.88
See Figure 2 left. Image encoder. 左図2参照。 画像エンコーダ。 0.65
An image I ∈ RH×W×C is split into a sequence of patches of size (P, P ). 画像I ∈ RH×W×Cを大きさのパッチ列(P,P)に分割する。 0.68
Each image patch is then linearly projected and a position embedding is added to produce a sequence of patch tokens (p1, ..., pN ) ∈ RN×DI where N = HW/P 2 is the number of patches, DI is the number of features. それぞれの画像パッチを直線的に投影し、位置埋め込みを加えてパッチトークン(p1, ..., pN ) ∈ RN×DI を生成し、N = HW/P2 はパッチの数、DI は特徴数である。
訳抜け防止モード: 各画像パッチは線形に投影される 位置埋め込みが追加され、パッチトークンのシーケンス(p1,...)が生成される。 pN ) ∈ RN×DI ここで N = HW / P 2 はパッチの数である。 DIは機能の数です。
0.83
A transformer encoder maps the input sequence to a sequence of contextualized patch tokens (x1, ..., xN ) ∈ RN×DI . トランスエンコーダは入力シーケンスをコンテキスト化されたパッチトークン(x1, ..., xN ) ∈ RN×DI のシーケンスにマッピングする。 0.81
See more details in Section 4.2. 詳細は4.2項を参照。 0.70
Text encoder. テキストエンコーダ。 0.72
For each referring expression tj, which can consist of multiple words, we extract one token yj. 各参照表現 tj は複数の単語からなることができ、1つのトークン yj を抽出する。 0.78
To do so the text tj is tokenized into words using lower-case byte pair encoding (BPE) [51] and [BOS], [EOS] tokens are added to the beginning and the end of the sequence. そのため、小文字バイトペア符号化(BPE)[51]および[BOS]を用いてテキストtjを単語にトークン化し、シーケンスの開始と終了に[EOS]トークンを付加する。
訳抜け防止モード: to do so―to do so tj は小文字のバイトペア符号化 (BPE ) [ 51 ] を使って単語にトークン化される そして[BOS ], [EOS ]トークンがシーケンスの開始と終了に付加されます。
0.84
A sequence of position embedding is added and a transformer encoder maps the input sequence to a sequence of contextualized word tokens from which the [BOS] token is extracted to serve as a global text representation yj ∈ RDT . 位置埋め込みのシーケンスを追加し、トランスフォーマーエンコーダは、入力シーケンスを[BOS]トークンを抽出したコンテキスト化された単語トークンのシーケンスにマッピングし、グローバルテキスト表現yj ∈ RDTとして機能させる。
訳抜け防止モード: 位置埋め込みのシーケンスが追加される 変換器エンコーダは入力シーケンスを 文脈化された単語トークンのシーケンスにマッピングし BOS ]トークンは、グローバルテキスト表現 yj ∈ RDT として機能するために抽出されます。
0.88
Patch-text similarity scores. パッチテキスト類似度スコア。 0.64
The visual and textual tokens are linearly projected to a multi-modal common embedding space and L2-normalized. 視覚的およびテキスト的トークンは、多様共通埋め込み空間とl2正規化空間に線形に投影される。 0.62
From the patch tokens (x1, ..., xN ) and the global text tokens (y1, ..., yL), we compute patch-text cosine similarities as the scalar product and obtain the similarity matrix パッチトークン (x1, ..., xn ) とグローバルテキストトークン (y1, ..., yl) から、パッチテキストコサインの類似度をスカラー製品と計算し、類似度行列を得る。 0.71
(1) with S ∈ RN×L. (1) s ∈ rn×l を持つ。 0.65
The similarities are in the range [−1, 1] and scaled with a learnable temperature parameter τ > 0 controlling their range. 類似点は[−1, 1]の範囲にあり、その範囲を制御する学習可能な温度パラメータτ > 0でスケールされる。 0.78
S = (si,j)i,j = (xi · yj)i,j, s = (si,j)i,j = (xi · yj)i,j, 0.40
3.2 Global Pooling Mechanisms To leverage image-level text supervision, we need to map the matrix S ∈ RN×L of patch-text similarities to an image-level score for each referring expression, i.e., z ∈ RL. 3.2 画像レベルのテキスト管理を利用するには、パッチテキスト類似性の行列 S ∈ RN×L を参照式、すなわち z ∈ RL に対して画像レベルのスコアにマッピングする必要がある。
訳抜け防止モード: 3.2 Global Pooling Mechanisms to leverage image - level text supervision, パッチの行列 S ∈ RN×L - 画像とのテキスト類似性 - 各参照式、すなわち z ∈ RL のレベルスコア - をマッピングする必要がある。
0.82
The score vector z allows us to compute a classification loss using ground truth referring expressions. スコアベクトル z は基底真理参照表現を用いて分類損失を計算することができる。 0.79
Note that we cannot compute per-pixel losses given the lack of pixel-wise supervision in weakly-supervised settings. 弱教師付き設定では画素単位の監督が欠如しているため、ピクセル単位の損失を計算することはできない。 0.48
Global average and max pooling (GAP-GMP). グローバル平均と最大プール(GAP-GMP)。 0.83
A straightforward way of pooling is global average pooling (GAP), where we average the similarities for a given referring expression over all patches of an image: プールの簡単な方法はグローバル平均プール(GAP)であり、画像のすべてのパッチに対する参照表現の類似度を平均化します。 0.78
zGAP j = 1 N zGAP j = 1N 0.41
N(cid:88) i=1 N(第88回) i=1 である。 0.47
si,j. (2) シー、j。 (2) 0.44
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
7 Fig. 3: (Left) A patch assignment mechanism computes masks from patch-text similarities, the masks are used as weights in the global weighed pooling. 7 図3: (左) パッチ割り当て機構はパッチテキストの類似性からマスクを計算し、マスクはグローバルウェイトプールのウェイトとして使用される。 0.61
(Center) SPA: assignment with a softmax on text channels, softly enforcing a single label per patch. (中) spa: テキストチャネルにsoftmaxを割り当て、パッチ毎に単一のラベルをソフトに強制する。 0.66
(Right) MPA: assignment with a sigmoid, generalizing to multiple labels per patch. (標高) MPA: Sigmoidを割り当て、パッチ毎に複数のラベルに一般化する。 0.68
This score is expected to be high if the referring expression is contained in the image. このスコアは、参照表現が画像に含まれている場合、高いと期待される。 0.73
However, the score is dependent on the object size and results in low scores for small objects. しかし、スコアはオブジェクトのサイズに依存し、結果として小さなオブジェクトに対して低いスコアが得られる。 0.64
An alternative to GAP is global max pooling (GMP): GAPに代わるものとして、GMP(Global Max pooling)がある。 0.70
The max operation in GMP decreases the influence of the object size, however it tends to focus on most discriminative regions of a class [57]. GMPにおける最大演算は、オブジェクトサイズの影響を減少させるが、クラス[57]のほとんどの識別領域に焦点を当てる傾向がある。 0.80
zGM P j zgm p j である。 0.49
= max (si,j). =マックス (si,j)。 0.53
i (3) Global weighted pooling (GWP). 私は (3) GWP(Global weighted pooling)の略。 0.56
To address the shortcomings of GAP and GMP, we follow [3] and make use of weighted pooling. GAPとGMPの欠点に対処するため、[3]をフォローし、重み付けプールを使用します。 0.64
Global weighted pooling replaces the constant patch weights 1/N in the sum of GAP by weights W = (wi,j)i,j ∈ RN×L. グローバル重み付きプールは、GAPの和の定数パッチ重み 1/N をウェイト W = (wi,j)i,j ∈ RN×L で置き換える。 0.79
The final score of a referring expression is then the weighted average of similarities: 参照表現の最終スコアは、以下の重み付けされた類似点の平均である。 0.71
N(cid:88) zGW P j N(第88回) zgw p j である。 0.54
= wi,jsi,j, = wi,jsi,j, 0.43
(4) malized mask scores M = (mi,j)i,j ∈ RN×L, based on wi,j = mi,j/((cid:80) where ε > 0 allows for (cid:80) (4) M = (mi,j)i,j ∈ RN×L は wi,j = mi,j/((cid:80) に基づいてスコアされ、ε > 0 は (cid:80) を許す。 0.64
as illustrated in Figure 3 left. In practice, W is defined in terms of spatially nori mi,j + ε) i wi,j = 0 when mask scores are below a threshold. 図3に示すように。 実際には、マスクスコアがしきい値以下であるとき、W は空間的に nori mi,j + ε) i wi,j = 0 で定義される。 0.68
GAP is a particular case of GWP where mi,j = 1 for all i, j and ε = 0. GAP は GWP の特別な場合であり、すべての i, j, ε = 0 に対して mi,j = 1 である。 0.84
We next describe two methods to compute masks M from the similarity matrix S. 次に類似度行列 s からマスク m を計算する2つの方法を記述する。 0.75
i=1 Masks by single-label patch assignment (SPA) [3]. i=1 である。 SPA (Single-label patch assignment) [3] によるマスク。 0.53
We aim at assigning patches to the relevant referring expression. 我々はパッチを関連する参照表現に割り当てることを目指している。 0.61
To do so, we apply a softmax operation over all referring expressions (y1, ..., yL) for each patch xi: そのため、各パッチ xi に対してすべての参照式 (y1, ..., yL) に対してソフトマックス演算を適用する。 0.81
mSP A i,j = mSP A i,j = 0.42
esbg +(cid:80)L esbg +(cid:80)L 0.46
esi,j j=1 esi,j esi,j j=1 esi,j 0.42
. (5) We add a background column (si,0)i and assign it a constant equal to sbg = 0 for all patches xi. . (5) 背景列 (si,0)i を追加し、すべてのパッチ xi に対して sbg = 0 に等しい定数を割り当てる。 0.54
This allows to assign patches with low scores si,j < 0 to the これにより、低いスコア si,j < 0 のパッチをアサインできる。 0.70
Global Weighted Pooling (GWP)MasksWeightsSim ilaritya firefighterlegsblue car...Text Scoresa jumping man2. GWP(Global Weighted Pooling)MasksWeights Similaritya 1961legsblue car...Text Scoresa jumping man2。 0.42
Normalize1. Softmax or Sigmoid4. 正規化1。 ソフトマックス、Sigmoid4。 0.53
Sum3. Point-wise productMulti-label Patch Assignment (MPA)Similarity1. 総数3。 ポイントワイズ製品 Multi-label Patch Assignment (MPA) 類似性1。 0.55
Sigmoidjumping manlegsSingle-label Patch Assignment (SPA)Similarity1. sigmoidjumping manlegsingle-label patch assignment (spa) similarity1。 0.33
Softmaxjumping manlegs ソフトマックスジャンピングマンレグ 0.38
英語(論文から抽出)日本語訳スコア
8 R. Strudel 8 R. Strudel 0.43
background. The masks are then soft assignments with (cid:80)L 背景 マスクは (cid:80)L でソフトな割り当てとなる 0.48
j=0 mi,j = 1 for any patch i. パッチ i に対して j=0 mi,j = 1。 0.79
This patch assignment can be viewed as multi-class classification which is typical for semantic segmentation where one pixel is matched to a single label as proposed by [3]. このパッチ割り当ては、[3]が提案したように、1ピクセルが1つのラベルにマッチするセマンティックセグメンテーションの典型的なマルチクラス分類と見なすことができる。 0.75
This single-label patch assignment (SPA) is illustrated in Figure 3 center. このシングルラベルパッチ割り当て(SPA)は図3の中央に示されています。 0.72
The softmax operation over referring expressions softly enforces the correspondence of a patch to one expression. 参照表現に対するソフトマックス操作は、パッチの1つの表現への対応をソフトに強制する。 0.56
However, this definition is problematic for referring expression segmentation where the masks of several expressions can overlap. しかし、この定義は、複数の表現のマスクが重なり合う表現セグメンテーションを参照する上で問題となる。 0.72
We illustrate this in Figure 3 center where pixels corresponding to jumping man and legs have lower mask weights on the overlapping region. 図3のセンターでは、ジャンプマンと脚に対応するピクセルが重なり合う領域でマスクの重みが低くなっている。 0.64
Such lower mask weights result in decreased image-level scores for both of the expressions. このような低いマスク重みは、両方の表現に対する画像レベルのスコアを低下させる。 0.60
Masks by multi-label patch assignment (MPA). マルチラベルパッチ割り当て(MPA)によるマスク。 0.83
We propose multi-label patch assignment (MPA) that overcomes the above limitations of SPA. 上述のSPAの制限を克服するマルチラベルパッチ割り当て(MPA)を提案する。 0.82
For each patch xi, we rely on binary classification between a referring expression yj and the background based on: 各パッチxiについて、参照式yjと背景とのバイナリ分類に依存します。 0.52
mM P A i,j = mM P A i,j = 0.42
esi,j esbg + esi,j esi,j esbg + esi,j 0.43
. (6) In this case, each patch can be assigned to multiple referring expressions, see Figure 3 right. . (6) この場合、各パッチは複数の参照表現に割り当てることができる。
訳抜け防止モード: . (6) この場合、各パッチは複数の参照表現に割り当てられる。 図3参照。
0.48
The masks are not mutually exclusive and each referring expression ∈ [0, 1] without softmax imposed constraints. マスクは互いに排他的ではなく、それぞれの参照式 ∈ [0, 1] はソフトマックスの制約を課さない。 0.61
can be assigned a score mM P A Patch assignment is viewed as a multi-label classification problem, this property is highly beneficial when performing weakly-supervised referring expression segmentation, as shown in Section 4. スコアmM P A パッチ割り当てをマルチラベル分類問題と見なすことができ、セクション4に示すように、弱い教師付き参照式セグメンテーションを行う場合、この特性は極めて有益である。 0.73
i,j Image-text scores. i.j. 画像テキストスコア。 0.54
We compute GWP scores zGW P with (4) using the masks M defined according to one of the assignment mechanism defined in (5),(6). (5),(6) で定義された代入機構の1つに従って定義されたマスク M を用いて GWP のスコア zGW P を (4) で計算する。 0.84
Then, we compute mask size scores zsize as そして、マスクサイズスコアをzsizeと計算する。 0.72
j = (1 − mj)p log(λ + mj), zsize j = (1 − mj)p log(λ + mj), zsize 0.40
(7) (cid:80)N (7) (cid:80)n 0.41
with mj = 1 i=1 mi,j. mj = 1 i=1 mi,j の場合。 0.85
This zsize is a size-penalty term introduced by [3] to N enforce mask completeness, e g zsize < 0 for small masks. このzサイズは、[3] から n 強制マスク完全性、例えば、小さなマスクに対して zsize < 0 というサイズペナルティ項である。
訳抜け防止モード: このサイズはサイズであり、[3 ] から N へのマスク完全性を強制するペナルティ用語である。 e g zsize < 0 for small masks
0.78
The magnitude of this penalty is controlled by λ. このペナルティの大きさは λ によって制御される。 0.72
Due to the normalization, W used in GWP is invariant to the masks size M and zsize enforces masks to be complete. 正規化のため、GWPで用いられるWはマスクのサイズ M に不変であり、zsize はマスクの完成を強制する。 0.72
The final score defining the presence of a referring expression tj in the image is defined as the sum: 画像中の参照表現tjの存在を定義する最後のスコアは、次の和として定義される。 0.66
j zj = zGW P j zj = zGW P 0.42
j + zsize j j +zsize j 0.41
. (8) 3.3 Training and inference . (8) 3.3 トレーニングと推論 0.54
In the following we describe our weakly supervised and fully supervised training procedure. 以下に、弱教師付き、完全教師付きトレーニング手順について述べる。 0.46
Furthermore, we present the approach used for inference. さらに,推論に用いた手法を提案する。 0.60
Weakly-supervised learning. Weakly-supervised segmentation is usually addressed on datasets with a fixed number of classes. 弱教師付き学習。 弱い教師付きセグメンテーションは通常、固定数のクラスを持つデータセットで処理される。 0.55
To handle the more general より一般的なものを扱うために 0.57
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
9 case where visual entities in the image are defined by referring expressions we use referring expressions of samples in a mini-batch as positive and negative examples. 9 画像内のビジュアルエンティティが表現を参照して定義される場合、ミニバッチ内のサンプルの参照表現を、ポジティブな例とネガティブな例として使用します。 0.54
Given a mini-batch containing (image, referring expression) pairs, the model has to predict the subset of referring expressions present in each image. 画像、参照表現)ペアを含むミニバッチが与えられると、モデルは各画像に存在する参照表現のサブセットを予測する必要がある。 0.74
For each image, we extract image-text scores z ∈ RL from the similarity matrix S using one of the pooling mechanism described in the previous section. 各画像に対して、前節で記述したプーリング機構の1つを用いて、類似度行列Sから画像テキストスコアz ∈ RLを抽出する。 0.69
Finally, we optimize over the scores to match ground truth pairings z with the multi-label soft-margin loss function [2,3,58] as a classification loss, 最後に,基底真理対zとマルチラベルソフトマージン損失関数[2,3,58]とを分類損失として一致させるために,スコアを最適化する。 0.75
L(cid:88) j=1 l(cid:88) j=1 0.34
Lcls(z, z) = Lcls(z, z) = 0.42
−zj log (σ(zj)) − (1 − zj) log (σ(−zj)) , −zj log (σ(zj)) − (1 − zj) log (σ(−zj)) , 0.46
where σ(x) = 1/(1 + exp(−x)) is the sigmoid function. ここで σ(x) = 1/(1 + exp(−x)) はシグモイド函数である。 0.87
The loss encourages zj > 0 for positive image-text pairs and zj < 0 for negative pairs. この損失は、正のイメージテキスト対でzj > 0、負のペアでzj < 0を奨励する。 0.65
Fully-supervised learning. In the fully-supervised case, segmentation is learned from a dataset of images annotated with referring expressions and their corresponding segmentation masks. 専門は学習。 完全教師ありの場合、セグメンテーションは参照表現と対応するセグメンテーションマスクで注釈された画像のデータセットから学習される。 0.57
Only positive referring expressions (y1, ..., yL) are passed to the text encoder and the similarity matrix S is bilinearly interpolated to obtain pixel-level similarities of shape RH×W×L. テキストエンコーダには正の参照表現(y1, ..., yl)のみを渡し、類似度行列sをバイリニア補間してrh×w×lのピクセルレベルの類似度を得る。 0.70
Then, we minimize the Dice loss between the sigmoid of the pixel-level similarities M = σ(S) and the ground truth masks M: そして、画素レベルの類似性 M = σ(S) のシグモノイドと基底真理マスク M: の間のDice損失を最小化する。 0.80
where |M| =(cid:80) ここで |M| = (cid:80) 0.60
i,j mi,j and M ∩ M = (mi,jmi,j)i,j. i,j mi,j と M は M = (mi,jmi,j)i,j である。 0.74
Ldice(M, M) = 1 − 2 Ldice(M, M) = 1 − 2 0.42
|M ∩ M| |M| + |M| , M| M| |M| + |M| 。 0.29
(9) Inference. To produce segmentation masks, we reshape the patch-text masks M ∈ RN×L into a 2D map and bilinearly interpolate it to the original image size to obtain pixel-level masks of shape RH×W×L. (9) 推論 セグメンテーションマスクを生成するために,パッチテキストマスクM ∈ RN×Lを2次元マップに再構成し,元の画像サイズに2次元的に補間し,RH×W×L形状の画素レベルマスクを得る。 0.51
For SPA, pixel annotations are obtained by adding a background mask to M and applying an argmax over the refering expressions. SPAでは、Mに背景マスクを追加し、参照式にargmaxを適用することで画素アノテーションを得る。 0.67
For MPA, we threshold the values of M using the background score. MPAでは,背景スコアを用いてM値の閾値を決定する。 0.77
For GAP and GMP, we follow the standard approach from [2] to compute the masks M. Directly interpolating patch-level similarity scores to generate segmentation maps has been proven effective by Segmenter [53] in the context of semantic segmentation. セグメンテーションマップを生成するパッチレベルの類似度スコアを直接補間することは、セグメンテーションの文脈において segmenter [53] によって有効であることが証明された。
訳抜け防止モード: GAP と GMP については,[2 ] からマスク M を計算するための標準的なアプローチに従う。 セグメンテーションマップを 効果的だと証明され by Segmenter [ 53 ] in the context of semantic segmentation .
0.80
Our decoding scheme is an extension of Segmenter linear decoding where the set of fixed class embeddings is replaced by text embeddings. 我々のデコードスキームは、固定クラスの埋め込みの集合がテキスト埋め込みに置き換えられるセグメンタ線形デコードの拡張である。 0.77
4 Experiments In this section we first outline datasets and implementation details in Sections 4.1 and 4.2. 4つの実験 この節では、まずデータセットと実装の詳細をセクション4.1と4.2で概説します。 0.61
We then validate our implementation of two state-of the-art methods for weakly-supervised semantic segmentation in Section 4.3 . 次に、第4.3節で弱教師付きセマンティックセグメンテーションのための2つの最先端手法の実装を検証する。 0.48
Next, we ablate different parameters of the proposed TSEG method for the task of referring expression segmentation in Section 4.4. 次に,第4節4で表現セグメンテーションを参照するタスクに対して,提案したTSEG法の異なるパラメータをアブレーションする。 0.68
Finally, we compare TSEG to methods introduced in Section 4.3 on referring expression datasets in Section 4.5. 最後に,第4.5節で表現データセットを参照する手法について,TSEGとセクション4.3で導入された手法を比較した。 0.48
英語(論文から抽出)日本語訳スコア
10 R. Strudel 10 R. Strudel 0.43
4.1 Datasets and metrics 4.1 データセットとメトリクス 0.66
Pascal VOC 2012. 2012年パスカルVOC。 0.55
Pascal [16] is an established benchmark for weakly-supervised semantic segmentation. Pascal [16]は、弱い教師付きセマンティックセグメンテーションのための確立されたベンチマークである。 0.51
Following standard practice [1,2,3,33], we augment the original training data with additional images from [22]. 標準慣行 [1,2,3,33] に従って, [22] からの追加画像でトレーニングデータを拡張した。
訳抜け防止モード: 慣例[1,2,3,33]に従う. 元のトレーニングデータに [22]の画像を追加します
0.75
The dataset contains 10.5K images for training and 1.5K images for validation. データセットにはトレーニング用の10.5Kイメージと検証用の1.5Kイメージが含まれている。 0.49
PhraseCut. PhraseCut [59] is the largest referring expression segmentation dataset with 77K images annotated with 345K referring expressions from Visual Genome [34]. フレーズカット。 フレーズカット [59] は, 77k画像に345k参照表現をアノテートした, 最大の参照表現セグメンテーションデータセットである。 0.67
The expressions comprise a wide vocabulary of objects, attributes and relations. 表現は、オブジェクト、属性、関係の幅広い語彙からなる。 0.68
The dataset is split into 72K images, 310K expressions for training and 3K images, 14K expressions for validation. データセットは72Kイメージ、トレーニング用の310K式、3Kイメージ、バリデーション用の14K式に分けられる。
訳抜け防止モード: データセットは72Kイメージ、トレーニング用310K表現に分割される 3K画像,14K画像による検証。
0.68
RefCOCO. RefCOCO and RefCOCO+ [65] are the two most commonly used datasets for referring expression segmentation and comprehension. RefCOCO RefCOCOとRefCOCO+ [65]は、表現のセグメンテーションと理解に最もよく使われるデータセットである。 0.52
RefCOCO has 20K images and 142K referring expressions for 50K objects while RefCOCO+ contains 20k images and 142K expressions for 50K objects. RefCOCO+は50Kオブジェクトに対して20Kイメージと142K参照表現を持ち、RefCOCO+は50Kオブジェクトに対して20Kイメージと142K表現を含む。 0.59
RefCOCO+ is a harder dataset where words related to the absolute location of the objects are forbidden. RefCOCO+は、オブジェクトの絶対位置に関する単語が禁止される難しいデータセットである。 0.85
RefCOCOg is a dataset of 27K images with 105K expressions referring to 55K objects. RefCOCOgは、55Kオブジェクトを参照する105K表現を備えた27Kイメージのデータセットである。 0.68
Compared to RefCOCO(+), RefCOCOg has longer sentences and richer vocabulary. RefCOCO(+)と比較して、RefCOCOgはより長い文とより豊かな語彙を持つ。 0.71
Metrics. We follow previous work and report mean Intersection over Union (mIoU) for all Pascal classes. メトリクス。 すべてのパスカルクラスに対して、以前の研究に従い、Intersection over Union (mIoU) を報告する。 0.55
For referring expression segmentation we use standard metrics where mIoU is the IoU averaged over all image-region pairs resulting in a balanced evaluation for small and large objects [65,59]. 表現セグメンテーションの参照には、mIoUがすべての画像領域対の平均値である標準メトリクスを使用し、その結果、小さくて大きなオブジェクト [65,59] のバランス評価を行う。 0.71
4.2 Implementation details Initialization. 4.2 実装の詳細 初期化。 0.65
Our TSEG model contains an image encoder initialized with an ImageNet pre-trained Vision Transformer [15,52] and a text encoder initialized with a pre-trained BERT model [12]. tsegモデルには、imagenetプリトレーニングビジョントランスフォーマ [15,52] で初期化された画像エンコーダと、プリトレーニングされたbertモデル [12] で初期化されたテキストエンコーダが含まれている。 0.63
We use ViT-S/16 [52] and BERT-Small [54] which are both expressive models achieving strong performance on vision and language tasks, while remaining fast and compact. ViT-S/16 [52] とBERT-Small [54] は両モデルとも高速かつコンパクトでありながら、視覚および言語タスクにおいて強力な性能を発揮する表現モデルである。 0.67
Our model has a total number of 42M parameters. 我々のモデルは合計42Mのパラメータを持つ。 0.86
Following [15,53], we bilinearly interpolate ViT position embeddings when using an image resolution that differs from its pre-training. 15,53] に続いて, 事前学習と異なる画像解像度を用いた場合, ViT 位置埋め込みを双方向に補間する。 0.69
Optimization. For weakly-supervised learning, we use SGD optimizer [50] with a base learning rate γ0, and set weight decay to 10−4. 最適化。 弱教師付き学習では,ベース学習率γ0のSGDオプティマイザ[50]を用い,重量減衰を10-4とする。 0.73
Following DeepLab [9], we adopt the poly learning rate decay γ = γ0(1− niter )0.9. DeepLab [9] に続いて、ポリ学習速度減衰 γ = γ0(1− niter )0.9 を採用する。 0.78
We use a stochastic drop path rate [26] of 0.1 following standard practices to train transformers [12,15,52]. 標準慣行に従って0.1の確率的なドロップパス率[26]を用いて変換器を訓練する[12,15,52]。 0.62
For Pascal, PhraseCut and RefCOCO, we set the base learning rate γ0 = 10−3. Pascal, PhraseCut, RefCOCOに対して, ベース学習率 γ0 = 10−3 を設定した。 0.76
We found this learning scheme to be stable resulting in good results for all three datasets. この学習スキームは安定しており、3つのデータセットすべてに良い結果が得られた。 0.71
Regarding training iterations and the batch size, we use 16K iterations and batches of size 16 for Pascal, 80K iterations and batches of size 32 for RefCOCO, and 120K iterations with batches of size 32 for PhraseCut. 繰り返しの訓練とバッチサイズについて,パスカルでは16k回,パスカルでは16回,refcocoでは80回,バッチ32回,フレーズカットでは32回分で120回,それぞれ実施した。
訳抜け防止モード: トレーニングイテレーションとバッチサイズについては、16Kイテレーションを使用します。 パスカルではサイズ16、80K また、RefCOCOでは32のバッチ、PhraseCutでは32のバッチで120Kのイテレーションがある。
0.66
When ntotal いつ ntotal 0.57
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
11 Method Image encoder 11 方法 画像エンコーダ 0.52
Class encoding クラスエンコーディング 0.70
mIoU Vector Language model mIoU ベクトル言語モデル 0.61
† † GAP [2] WideResNet38 WideResNet38 GAP [2] ViT-S/16 GAP [2] GMP [68] WideResNet38 GMP [68] ViT-S/16 SPA [3] WideResNet38 † WideResNet38 SPA [3] † SPA [3] ViT-S/16 † † GAP [2] WideResNet38 WideResNet38 GAP [2] ViT-S/16 GAP [68] WideResNet38 GMP [68] ViT-S/16 SPA [3] WideResNet38 0.40
† † ✓ ✗ ✗ ✗ ✗ ✓ ✗ ✗ † † ✓ ✗ ✗ ✗ ✗ ✓ ✗ ✗ 0.42
✗ ✓ ✓ ✓ ✓ ✗ ✓ ✓ ✗ ✓ ✓ ✓ ✓ ✗ ✓ ✓ 0.43
48.0 46.8 50.2 44.3 48.1 62.7 62.4 66.4 48.0 46.8 50.2 44.3 48.1 62.7 62.4 66.4 0.21
Table 1: State-of-the-art single-stage methods for weakly-supervised semantic segmentation on the Pascal VOC validation set. 表1:Pascal VOC検証セット上の弱教師付きセマンティックセグメンテーションのための最先端の単一ステージ手法。 0.65
† denotes our implementation. は我々の実装を表す。 0.37
Multi-scale processing and CRF are used for inference. マルチスケール処理とCRFが推論に使用される。 0.74
training on referring expressions, we randomly sample three positive expressions per image on average. 参照表現のトレーニングでは,画像毎に平均3つの正の表現をランダムにサンプリングする。 0.64
The resolution of images at train time is set to 384 × 384 and following standard practices we use random rescaling, horizontal flipping and random cropping. 列車時の画像の解像度は384×384に設定され、ランダムリスケーリング、水平フリップ、ランダムトリミングといった標準的なプラクティスに従っています。 0.66
For the fully-supervised setup we use AdamW [32,43] optimizer and set the base learning rate γ0 to 5 × 10−5. 完全に教師されたセットアップでは、AdamW [32,43]オプティマイザを使用し、ベースラーニングレート γ0 を 5 × 10−5 に設定します。 0.47
We set the batch size to 16 for all datasets and use the same number of iterations as for weakly-supervised setups. すべてのデータセットでバッチサイズを16に設定し、弱い教師付きセットアップと同じ回数のイテレーションを使用します。 0.68
The resolution of images at train time is 512 × 512. 列車時の画像の解像度は512×512である。 0.74
4.3 State-of-the-art methods for weakly-supervised semantic 4.3 弱教師付きセマンティックのための最先端手法 0.43
segmentation As we are the first to propose an approach for weakly-supervised learning for referring expression segmentation, we implemented state-of-the-art methods for weakly-supervised semantic segmentation to use as baselines. セグメンテーション 表現セグメンテーションを参照するための弱教師付き学習のアプローチを最初に提案するため,弱教師付きセグメンテーションをベースラインとして使用するための最先端手法を実装した。 0.66
We use three singlestage methods presented in Section 3.2, namely GMP [68], the seminal work GAP [2], and the more recent state-of-the-art approach SPA [3]. 我々は3.2節で提示される3つの単段階法、すなわちGMP[68]、基礎的な作業 GAP [2]、そしてより最近の最先端のアプローチ SPA[3] を用いる。 0.72
SPA performs close to the best two-stage weakly-supervised methods, DRS [31] and EPS [36], two more complex methods relying on off-the-shelf saliency detectors, which is not the focus of our work. SPAはDRS[31]とEPS[36]の2つのより複雑な手法であり、市販の塩分濃度検出器に依存しており、これは我々の研究の焦点ではない。 0.58
Table 1 reports the performance on the Pascal VOC 2012 dataset. Table 1はPascal VOC 2012データセットのパフォーマンスを報告している。 0.73
With a language model as class encoding as shown in Figure 2, we obtain similar performances as GAP [2] and SPA [3] using the same WideResNet38 backbone. 図2に示すように、クラスエンコーディングとしての言語モデルでは、spa [3]とgap [2]と同じワイドesnet38バックボーンを使用して同様のパフォーマンスを得る。 0.69
By using the more recent ViT-S/16 backbone with SPA, we obtain 66.4% mIoU, a 4% gain over WideResNet38. より最近のVT-S/16バックボーンをSPAで使用することにより、66.4%のmIoUが得られる。 0.69
We also report results with GMP [68] for which we did not find methods reporting results on Pascal VOC 2012. また, GMP [68] を用いて, Pascal VOC 2012 で結果の報告方法が見つからなかった結果も報告した。 0.84
The GMP results are below the GAP results and again the ViT-S/16 backbone gives improved results. GMPの結果はGAPの結果より低く、ViT-S/16のバックボーンも改善された。 0.67
In the following sections we use ViT-S/16 as the image encoder, BERTSmall as the text encoder and GAP, GMP and SPA as a point of comparison 以下のセクションでは、画像エンコーダとしてViT-S/16、テキストエンコーダとしてBERTSmall、比較点としてGAP、GMP、SPAを使用する。 0.62
英語(論文から抽出)日本語訳スコア
12 R. Strudel 12 R. Strudel 0.43
λ ↓ p → 0 26.8 0.0 26.8 0.01 0.1 26.3 λ ↓ p → 0 26.8 0.0 26.8 0.01 0.1 26.3 0.29
1 27.4 26.8 26.8 1 27.4 26.8 26.8 0.33
3 5 27.9 27.7 27.6 28.3 27.2 28.0 3 5 27.9 27.7 27.6 28.3 27.2 28.0 0.36
(a) Size penalty term. (a)サイズペナルティ用語。 0.67
Dimension mIoU 384 28.3 28.6 512 1024 28.8 寸法 384 28.3 28.6 512 1024 28.8 0.34
(b) Multi-modal ding dimension. (b)多様ディンディング次元。 0.62
embed- Similarity mIoU 28.8 identity tf-idf 28.4 埋め込み mIoU 28.8 ID tf-idf 28.4 0.42
Dataset Size mIoU 16.2 10% 50% 25.3 28.8 100% データセットサイズmIoU 16.2 10% 50% 25.3 28.8 100% 0.71
Dataset ImageNet COCO データセット imagenet coco 0.62
mIoU 28.8 31.7 奥羽28.8.31.7 0.30
(c) Ground truth similarity score. (c)根拠真理類似度スコア。 0.38
(d) Dataset size. (d)データセットのサイズ。 0.81
(e) Pretraining dataset. (e)データセットの事前トレーニング。 0.64
Table 2: Ablations of TSEG with ViT-S/16 as the image encoder and Bert-Small as the language model on PhraseCut validation set. 表2: イメージエンコーダとしてのViT-S/16と、PhraseCut検証セットの言語モデルとしてのBert-SmallとのTSEGの対応。 0.63
to our proposed TSEG method. 提案したTSEG法について検討した。 0.38
The models can directly be used to perform referring expression segmentation by replacing the class label given as input to the language model by referring expressions. 表現を参照することで、言語モデルへの入力として与えられたクラスラベルを置き換えることで、参照式セグメンテーションを直接使用することができる。 0.76
4.4 TSEG ablations 4.4 TSEG の廃止 0.59
We now perform weakly-supervised referring expression segmentation. 我々は現在,弱教師付き参照表現セグメンテーションを行う。 0.51
At train time the model has to maximize the score of the image and text embeddings of correct pairings while minimizing the score of incorrect pairings. 列車時には、間違ったペアのスコアを最小化しながら、画像のスコアと正しいペアのテキスト埋め込みを最大化する必要がある。 0.56
At test time, following the standard visual grounding setting, the model is given as input the set of referring expressions present in the image and outputs a mask for each referring expression. テスト時には、標準の視覚的接地設定に従って、画像に存在する参照表現のセットを入力としてモデルを与え、参照表現毎にマスクを出力する。 0.70
TSEG uses the proposed MPA to compute scores from patch-text similarities. TSEGは、パッチテキストの類似性からスコアを計算するために提案されたMPAを使用する。 0.45
Table 2 reports ablations of our TSEG model on the PhraseCut validation set. 表2は、PhraseCut検証セット上で、TSEGモデルの廃止を報告します。 0.63
First, we ablate over the size penalty parameters λ and p from Eq 7 in Table 2a. まず,表2aの Eq 7 からサイズペナルティパラメータ λ と p を集計する。 0.72
Smaller λ values induce a larger penalty for masks with a small size and larger p values increase the focal penalty term, see [39] for more details. より小さいλ値は、より小さいサイズとより大きいp値を持つマスクに対するより大きなペナルティを誘導し、焦点ペナルティ項を増加させる。 0.72
We find TSEG is quite robust to the objective hyperparameters λ and p. TSEG は目的超パラメータ λ と p に対して非常に頑健である。 0.77
The best values are λ = 0.01 and p = 5; we fix λ and p to these values in the remaining of the paper. 最良の値は λ = 0.01 と p = 5 であり、論文の残りで λ と p をこれらの値に固定する。 0.90
Table 2b reports performance for different cross-modal embedding dimension, increasing the embedding size improves results overall. 表2bは、異なるモードの埋め込み次元のパフォーマンスを報告し、埋め込みサイズを増やすことで、全体的な結果が改善される。 0.46
In Table 2c, we consider different definitions for the ground truth. 表2cでは、基底真理について異なる定義を考察する。 0.73
In the identity setup, two referring expressions of a batch are considered the same if they exactly match. 同一性設定では、バッチの2つの参照式が一致する場合、同一視される。 0.66
In the tf-idf setup, the similarity between two referring expressions if computed according to a tf-idf score. tf-idf設定において、tf-idfスコアに従って計算された場合の2つの参照式間の類似性。 0.63
If a tabby cat is present in an image, and there is a brown cat in a second image, the ground truth score for brown cat in the first image will be positive because both referring expression share the word cat. 画像中にタブビー猫が存在し、第2の画像に茶色の猫が存在する場合、両方の参照表現が猫の語を共有するため、第1の画像に茶色の猫の接地真実スコアが陽性となる。 0.86
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
13 Fig. 4: Comparison of different pooling mechanisms for weakly supervised segmentation from referring expressions on example images from the PhraseCut dataset: 13 第4図:句カットデータセットの例画像参照表現からの弱教師付きセグメンテーションのための異なるプーリング機構の比較 0.81
(a) Global average pooling (GAP), (a)グローバル平均プール(GAP) 0.70
(b) Global max pooling (GMP), (b)グローバルマックスプール(gmp) 0.63
(c) Single-label patch assignment (SPA), (c)SPA(Single-label patch assignment) 0.44
(d) TSEG with multi-label patch assignment (TSEG). (d)マルチラベルパッチ割り当て(tseg)付きtseg。 0.51
(e) Fully supervised results. (e)完全に監督された結果。 0.53
Using tf-idf performed slightly worse than the identity score and we thus use identity to define the ground truth. tf-idfの使用はアイデンティティスコアより若干悪かったので、基底真理を定義するためにidを使用する。 0.64
Table 2d reports the validation score for an increasing training dataset size. テーブル2dは、トレーニングデータセットのサイズを増やすための検証スコアを報告します。 0.54
We observe that TSEG improves with the dataset size, a desirable property of weakly-supervised segmentation approach where annotations are much cheaper to collect than in the fully-supervised case. TSEGは,アノテーションが完全に教師された場合よりもはるかに安価に収集できるような,弱い教師付きセグメンテーションアプローチの望ましい特性であるデータセットサイズによって改善される。 0.54
Finally, Table 2e reports results when pretraining the visual backbone on only ImageNet for classification or by additionally pretraining the visual and language model on RefCOCO for visual grounding. 最後に、Table 2eは、分類のためにImageNetでのみ視覚バックボーンを事前トレーニングしたり、ビジュアルグラウンドのためにRefCOCOで視覚モデルと言語モデルを事前トレーニングすることで、結果を報告する。
訳抜け防止モード: ついにTable 2eが結果を発表 分類のためのImageNetのみによる視覚バックボーンの事前トレーニング あるいは、視覚的接地のためにRefCOCOで視覚的および言語モデルを事前訓練する。
0.71
For pretraining on COCO we use box ground truth annotations as follows. COCOの事前トレーニングには、以下のボックスグラウンドの真理アノテーションを使用します。 0.61
The model is given as input an image and referring expressions to detect, for each referring expressions the model predicts patches that are within the object bounding box. モデルは、画像と参照表現を入力して検出し、各参照表現に対して、モデルがオブジェクトバウンディングボックス内にあるパッチを予測する。 0.73
We observe that leveraging detection related information as pretraining improves the result by 3%. 事前学習として検出関連情報を活用することで,結果が3%向上する。 0.64
In the following we report results with ImageNet pretraining only, following standard practice from the weakly-supervised semantic segmentation literature. 以下に、弱教師付きセマンティックセグメンテーション文献の標準的な実践に従って、ImageNetの事前学習結果について報告する。 0.57
4.5 Weakly supervised referring expression segmentation 4.5 弱制御参照表現セグメンテーション 0.70
We now compare TSEG on referring expression datasets to weakly supervised state-of-the-art methods presented in Section 4.3, we report results in Table 3 and show qualitative results in Figure 4. 現在、表現データセットを参照するTSEGと、第4章3に示す弱教師付き最先端手法を比較し、表3で結果を報告し、図4で定性的な結果を示す。 0.58
PhraseCut: GMP and GAP achieve an mIoU of 5.7 and 9.3 respectively, showing that it is possible to learn meaningful masks using referring expressions as labels. PhraseCut: GMPとGAPはそれぞれ5.7と9.3のmIoUを達成しており、ラベルとして参照式を用いて意味のあるマスクを学習することが可能である。
訳抜け防止モード: PhraseCut : GMPとGAPはそれぞれ5.7と9.3のmIoUを達成する。 意味のあるマスクをラベルとして参照することで学習できること。
0.73
However, GAP averages patch-text similarity scores and depends on しかし、ギャップはパッチテキストの類似度を平均し、依存する 0.53
(a) GAP(c) SPA(e) Fully-supervised(b) GMP(d) TSEGgirlumbrellabric k buildingthumb on bunbun holds bananasitting womangreen grass (a)gap(c) spa(e) full-supervised(b) gmp(d) tseggirlumbrellabric k buildingthumb on bunbun holding bananasitting womangreen grass 0.40
英語(論文から抽出)日本語訳スコア
14 R. Strudel 14 R. Strudel 0.43
Method † GMP [68] † GAP [2] † SPA [3] 方法 † GMP [68] > GAP [2] > SPA [3] 0.40
TSEG TSEG (CRF) TSEG TSEG (CRF) 0.43
PhraseCut RefCOCO RefCOCO+ RefCOCOg フレーズカット refcoco refcoco+ refcocog 0.47
5.77 9.35 21.12 5.77 9.35 21.12 0.24
28.77 30.12 28.77 30.12 0.25
6.54 6.65 10.32 6.54 6.65 10.32 0.24
25.44 25.95 25.44 25.95 0.25
5.12 7.21 9.16 5.12 7.21 9.16 0.24
22.01 22.62 22.01 22.62 0.25
6.54 6.07 8.35 6.54 6.07 8.35 0.24
22.05 23.41 22.05 23.41 0.25
Table 3: Comparison of different weakly-supervised methods for referring expression segmentation on Phrasecut and RefCOCO validation set. 表3:PhrasecutとRefCOCOの検証セットにおける表現セグメンテーションを参照するための弱い指導方法の比較。 0.71
† denotes our implementation, validated in Table 1. は表1で検証された我々の実装を表します。 0.48
Fig. 5: TSEG segmentation results on the PhraseCut test set. 第5図:tsegセグメンテーションがフレーズカットテストセット上で結果を示す。 0.70
Our method segments a rich set of open-vocabulary concepts without using pixel-level supervision at the training. 提案手法は,学習時にピクセルレベルの監視を使わずに,オープンボキャブラリー概念の豊富な集合をセグメント化する。 0.55
the instance mask size which tends to generate over-saturated activation maps (Fig. 4a). 過飽和活性化マップを生成する傾向がある例マスクのサイズ(図4a)。 0.79
GMP exhibits complementary properties focusing on the most discriminative object parts (Fig. 4b). GMPは最も識別性の高い対象部分(図4b)に焦点を当てた相補的性質を示す。 0.63
SPA outperforms GAP and GMP with a mIoU of 21.1, consistent with results on Pascal VOC 2012, see Table 1. SPAはGAPとGMPを21.1のmIoUで上回り、Pascal VOC 2012の結果と一致している。 0.62
MPA further improves SPA by 7%, with 28.77% mIoU on Phrasecut, showing its crucial importance for referring expression segmentation. MPAはさらにSPAを7%改善し、Fhorasecutの28.77% mIoUは発現セグメンテーションの参照において重要な重要性を示している。 0.67
This improvement can partly be explained by the fact that our objective allows multiple masks to overlap by design, a highly desirable property that is not satisfied by GMP, GAP and SPA. この改善は、GMP、GAP、SPAが満たさない非常に望ましい特性である、設計によって複数のマスクが重なり合うことが目的であるという事実によって部分的に説明できる。 0.63
From Figure 4d we observe that MPA generates more complete masks with both higher recall, e g the thumb on bun instance is detected, and we obtain higher precision, e g masks achieve better completeness as for the sitting woman instance. 図4dから、mpaがより高いリコール、例えばbunインスタンスの親指を検出して、より完全なマスクを生成することを観察し、例えば、着席した女性の例のように、マスクはより完全性が向上する。
訳抜け防止モード: 図4dから、MPAはより完全なマスクを生成し、両方のリコールを高くする。 例えば Bun インスタンスの親指が検出され より正確で egマスクは 座っている女性の例のように より完全性を達成します
0.70
Using CRF [8] further improves the performance to 30.12 mIoU. CRF[8]を使用すると、さらに30.12 mIoUまで性能が向上する。 0.60
Qualitative results are presented in Figure 5. 質的な結果は図5に示します。 0.78
To obtain an upper-bound, we also train TSEG with full supervision and obtain a 49.6 mIoU. 上行程を得るには、全監督でTSEGを訓練し、49.6 mIoUを得る。 0.63
This is close to the best fully supervised method MDETR [29], which obtains 53.1 mIoU while pretraining on a much large dataset annotated for visual grounding and higher training resolution. MDETR [29]は53.1 mIoUを取得し、視覚的なグラウンドとより高いトレーニング解像度のためにアノテートされた非常に大きなデータセットを事前訓練する。 0.69
While there is still a gap compared to full supervision, we believe our proposed results to be promising and the first step towards large-scale weakly supervised referring expression segmentation. 完全監督と比較してはまだギャップがあるものの,提案した結果は有望であり,大規模に監督された参照表現セグメンテーションへの第一歩であると考えている。 0.56
Additional qualitative results and comparison to the fully-supervised 付加的質的結果と全教師による比較 0.66
playing elephantsgroundmetal fencesilver chairparasolarch over doorway groupof peoplesandwichman withblue shirtgirlskeleton ゾウのグラウンドメタルフェンスシルバーチェアパラソラキッドをプレイする人々とブルーのシャツガールスケルトン 0.49
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
15 Fig. 6: Zero-shot transfer of our approach TSEG trained from text supervision on PhraseCut and evaluated on Pascal VOC 2012. 15 第6図 TSEG は PhraseCut のテキスト管理から訓練を受け,Pascal VOC 2012 で評価した。
訳抜け防止モード: 15 図 6 : Zero -PhraseCut のテキスト管理から訓練した我々のアプローチ TSEG のショット転送- Pascal VOC 2012で評価された。
0.56
The method has not been explicitly trained for PASCAL classes and has never obtained pixel-level supervision. この方法はPASCALクラスのために明示的に訓練されておらず、ピクセルレベルの監視を受けることはなかった。 0.53
model are presented in the appendix. モデルは付録で示されます。 0.63
RefCOCO: We also evaluate our method on the three RefCOCO datasets and report results on the val split in Table 3. RefCOCO: 3つのRefCOCOデータセットについても評価を行い、テーブル3のval分割結果について報告する。 0.77
Again, MPA outperforms GMP, GAP and SPA by a large margin. MPAはGMP、GAP、SPAよりも大きなマージンで優れています。 0.67
Training TSEG with full supervision we obtain 66.00 mIoU on RefCOCO, 55.35 on RefCOCO+ and 54.71 on RefCOCOg. tsegを全監督で訓練し、refcocoで66.00miou、refcoco+で55.35、refcocogで54.71mouを得る。
訳抜け防止モード: 全監督によるTSEG訓練 RefCOCO+で66.00 mIoU、RefCOCO+で55.35、RefCOCOgで54.71。
0.65
This is slightly better than the best fully supervised method VLT [13], which obtains 65.65, 55.50 and 52.99 mIoU respectively. これは65.65、55.50、52.99のmiouをそれぞれ得る最高の完全監督法vlt[13]よりもわずかに優れている。
訳抜け防止モード: これは、最高の完全教師付きメソッド VLT [ 13 ] よりも少し良い。 それぞれ65.65 、55.50 、52.99 mIoU を得る。
0.63
There is a larger gain from using full supervision than on PhraseCut. PhraseCutよりも完全な監視を使用することで大きな利益を得ることができます。 0.59
This could be explained by more fine-grained referring expressions such as broccoli stalk that is pointing up and is touching a sliced carrot or a darker brown teddy bear in a row of lighter teddy bears that are harder to localize without pixel-level supervision. これは、スライスしたニンジンや暗い茶色のテディベアを、ピクセルレベルの監督なしではローカライズが難しい軽いテディベアの列で指さし、触れているブロッコリー・ストークのようなより細かい表現で説明できる。
訳抜け防止モード: これは、指しているブロッコリーストークのようなよりきめ細かい参照表現によって説明できる。 より軽いテディベアの列で スライスしたニンジンや より暗い茶色のテディベアに触れています ピクセルなしでローカライズする -レベル管理。
0.61
4.6 Zero-shot transfer on Pascal VOC 4.6 パスカルVOCにおけるゼロショット転送 0.51
We evaluate the ability of TSEG to detect and localize visual concepts from text supervision by performing zero-shot experiments on Pascal VOC 2012 dataset, see Fig 6. TSEGがPascal VOC 2012データセット上でゼロショット実験を行うことで、テキスト管理から視覚概念を検出し、ローカライズする能力を評価する。 0.64
We take our TSEG model trained on the PhraseCut dataset, i.e., with the text supervision based on the referring expressions from PhraseCut. 我々は、PhraseCutデータセットに基づいてトレーニングされたTSEGモデル、すなわち、PhraseCutからの参照式に基づくテキスト管理を取り入れる。 0.70
We, then, pass the names of Pascal classes as input to the text encoder and obtain segmentation masks and confidence scores for all 20 object classes in each image. 次に,テキストエンコーダの入力としてPascalクラスの名称を渡し,各画像中の20のクラスすべてに対するセグメンテーションマスクと信頼スコアを取得する。 0.81
We filter classes by thresholding with the model confidence scores then use argmax between the remaining masks to determine the class of each pixel. モデルの信頼度スコアでしきい値でクラスをフィルタリングし、残りのマスク間でargmaxを使用して各ピクセルのクラスを判断します。 0.71
We set the threshold to 0.5. 私たちは閾値を0.5に設定した。 0.57
In the zero-shot setting, our TSEG model achieves an mIoU of 48.5 while the SPA baseline achieves an mIoU of 43.5. ゼロショット設定では、TSEGモデルは48.5mIoU、SPAベースラインは43.5mIoUとなる。 0.59
Interestingly, TSEG performs well on all classes except the person class. 興味深いことに、TSEGはパーソンクラス以外のすべてのクラスでうまく機能する。 0.61
As can be observed from Figure 7, the model does not detect the person label, but can be improved with label engineering by using more specific labels for the text encoder, such as woman and rider. 図7で見られるように、モデルは人物のラベルを検知しないが、女性やライダーのようなテキストエンコーダのより具体的なラベルを使用することで、ラベルエンジニアリングによって改善することができる。 0.77
InputTSEGGround truthInputTSEGGround truth inputtsegground truthinputtsegground truth 0.36
英語(論文から抽出)日本語訳スコア
16 R. Strudel 16 R. Strudel 0.43
Fig. 7: Failure cases on the person class for zero-shot results on Pascal VOC 2012. 図7: Pascal VOC 2012 でのゼロショット結果のクラスでの失敗事例 0.68
While the horse (violet) or bicycle (green) are well localized, the class person (pink) is not detected with the person label (column 2). 馬(バイオレット)または自転車(グリーン)はよく局在しているが、階級(ピンク)は人物ラベル(コロン2)で検出されない。 0.65
The model detects it by using more specific labels such as rider or woman (column 3, pink). モデルは、ライダーや女性(カラム3、ピンク)など、より具体的なラベルを使用して検出する。 0.72
Column 4 shows the ground truth. コラム4は真理を示す。 0.62
This bias partly comes from the annotations of PhraseCut training set and we believe that the need for label engineering may be reduced by training TSEG on a larger dataset with richer text annotations. このバイアスの一部は、フレーズカットトレーニングセットのアノテーションによるものであり、よりリッチなテキストアノテーションを持つより大きなデータセットでtsegをトレーニングすることで、ラベルエンジニアリングの必要性が軽減されると信じている。 0.56
On the person class, by passing person as input to the text encoder we obtain an IoU of 0.6 while by merging masks for the words man, woman, men, women, child, boy, girl, baby we improve the IoU to 30.4. 個人クラスでは、テキストエンコーダに入力として人物を渡すことで、男性、女性、男性、女性、女性、子供、男の子、女の子、赤ちゃん、IoUを30.4に改善して、IoUの0.6を得る。
訳抜け防止モード: 個人クラスでは、テキストエンコーダに入力として人物を渡すことで、人間の言葉にマスクをマージしながら、0.6のIoUを得る。 女性、男性、女性、子供、男の子、女の子 IoUを30.4に改善する。
0.78
By performing label engineering, TSEG reaches 50.3 mIoU. ラベルエンジニアリングにより、TSEGは50.3mIoUに達する。 0.61
In comparison, GroupViT [61] reports an mIoU of 51.2, but it has been trained on a much larger dataset of 30M image-text pairs and was designed for zero-shot segmentation. 比較としてGroupViT [61]は51.2のmIoUを報告しているが、より大規模な30M画像テキストペアのデータセットで訓練されており、ゼロショットセグメンテーション用に設計されている。 0.58
TSEG performs comparably to GroupViT, while trained on 350k image-text pairs. TSEGは、350kの画像テキストペアでトレーニングしながら、GroupViTと互換性がある。 0.57
This demonstrates the ability of our approach to learn general visual concepts accurately. これは、一般的な視覚概念を正確に学習するアプローチの能力を示しています。 0.64
5 Acknowledgements This work was partially supported by the HPC resources from GENCI-IDRIS (Grant 2021-AD011011163R1), the Louis Vuitton ENS Chair on Artificial Intelligence, and the French government under management of Agence Nationale de la Recherche as part of the ”Investissements d’avenir” program, reference ANR-19-P3IA-0001 (PRAIRIE 3IA Institute). 5 認定 この研究は、genCI-IDRIS (Grant 2021-AD011011163R1)、Louis Vuitton ENS Chair on Artificial Intelligence、フランス政府による"Investissements d’avenir"プログラムの一部として、Agence Nationale de la Rechercheの管理下にある、ANR-19-P3IA-0001 (PRAIRIE 3IA Institute)のHPCリソースによって部分的に支援された。
訳抜け防止モード: 5 認定 この作業は GENCI - IDRIS ( Grant 2021-AD011011163R1 ) の HPC リソースによって部分的に支援された。 The Louis Vuitton ENS Chair on Artificial Intelligence, and the French government under management of Agence Nationale de la Recherche as in the ” Investissements d’avenir ” program. ANR-19-P3IA-0001 (PRAIRIE 3IA Institute )を参照。
0.67
6 Conclusion This work introduces TSEG for weakly-supervised referring expression segmentation. 6 結論 本研究は、弱い教師付き参照表現セグメンテーションのためのTSEGを導入する。 0.55
We propose a multi-label patch assignment (MPA) mechanism that improves previous methods by a margin on this task. 本稿では,このタスクにおいて,従来の手法を改善したマルチラベルパッチ割り当て(mpa)機構を提案する。 0.74
We believe our work makes an important step towards scalable image segmentation from natural language. 我々の研究は、自然言語からのスケーラブルなイメージセグメンテーションに向けて重要な一歩を踏み出したと信じています。 0.44
Future work will address how to reduce the performance gap between weakly supervised and fully supervised methods and segment regions directly from image captions. 今後の課題は、イメージキャプションから直接、弱教師付きメソッドと完全教師付きメソッドとセグメント領域のパフォーマンスギャップを減らす方法に対処する。 0.59
InputInputPersonRide rPersonWomanGround truthGround truth 入力PersonRiderPersonWom anGround truthGround truth 0.26
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
17 References 1. Ahn, J., Cho, S., Kwak, S. 17 参考文献 1. Ahn, J., Cho, S., Kwak, S 0.49
: Weakly supervised learning of instance segmentation インスタンスセグメンテーションの弱教師付き学習 0.59
with inter-pixel relations. In: CVPR (2019) ピクセル間の関係。 CVPR(2019年) 0.62
2. Ahn, J., Kwak, S. 2. ahn, j., kwak, s。 0.32
: Learning pixel-level semantic affinity with image-level supervi- 画像レベルのsuperviを用いたピクセルレベルの意味親和性学習 0.55
sion for weakly supervised semantic segmentation. 弱い教師付き意味セグメンテーションのためのsion。 0.47
In: CVPR (2018) CVPR(2018年) 0.40
3. Araslanov, N., Roth, S. 3. Araslanov, N., Roth, S. 0.42
: Single-stage semantic segmentation from image labels. : 画像ラベルからの単一段階のセマンティックセグメンテーション 0.81
In: CVPR (2020) 院 CVPR(2020年) 0.58
4. Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lucic, M., Schmid, C. 4) Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lucic, M., Schmid, C。 0.80
: ViViT: A video vision transformer. ViViT:A ビデオビジョントランスフォーマー。 0.48
ICCV (2021) ICCV(2021年) 0.91
5. Bilen, H., Pedersoli, M., Tuytelaars, T. 5. Bilen, H., Pedersoli, M., Tuytelaars, T。 0.82
: Weakly supervised object detection with 弱教師付き物体検出装置 0.53
posterior regularization. In: BMVC (2014) 後方正規化。 BMVC(2014年) 0.56
6. Bojanowski, P., Lajugie, R., Bach, F., Laptev, I., Ponce, J., Schmid, C., Sivic, J. 6) Bojanowski, P., Lajugie, R., Bach, F., Laptev, I., Ponce, J., Schmid, C., Sivic, J.
訳抜け防止モード: 6 . bojanowski, p., lajugie, r., bach, f. ラプテフ i. ポンセ j. シュミット c.、sivic、j.。
0.64
: Weakly supervised action labeling in videos under ordering constraints. : 命令制約下でビデオ中の弱い教師付きアクションラベリング。 0.61
In: ECCV (2014) イン:ECCV(2014年) 0.79
7. Chen, K., Gao, J., Nevatia, R. 7.チェン、k、ガオ、j、ネヴァティア、r 0.54
: Knowledge aided consistency for weakly supervised 弱教師に対する知識支援型一貫性 0.52
phrase grounding. In: CVPR (2018) フレーズの接頭辞。 CVPR(2018年) 0.43
8. Chen, L., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. 8. Chen, L., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab: Semantic image segmentation with Deep Convolutional nets, atrous convolution, and full connected crfs。
訳抜け防止モード: 8Chen, L., Papandreou, G., Kokkinos I., Murphy, K., Yuille, A.L. : Deeplab : 深部畳み込みネットを用いた意味的イメージセグメンテーション アトラス・コンボリューション と 完全に接続された crf
0.83
IEEE Trans. Pattern Anal. ieeeトランス。 パターンアナル。 0.55
Mach. Intell. 40(4), 834–848 (2018) マッハ インテリ。 40(4), 834–848 (2018) 0.41
9. Chen, L., Zhu, Y., Papandreou, G., Schroff, F., Adam, H. 9. Chen, L., Zhu, Y., Papandreou, G., Schroff, F., Adam, H。 0.42
: Encoder-decoder with atrous separable convolution for semantic image segmentation. arous separable convolution for semantic image segmentation を用いたエンコーダデコーダ 0.75
In: ECCV (2018) イン:ECCV(2018) 0.54
10. Chen, T., Kornblith, S., Norouzi, M., Hinton, G.E.: A simple framework for con- 10. Chen, T., Kornblith, S., Norouzi, M., Hinton, G.E.: a simple framework for con- 0.48
trastive learning of visual representations. 視覚的表現のトラッシブな学習。 0.73
In: ICML (2020) in: icml (2020) 0.32
11. Cheng, B., Schwing, A.G., Kirillov, A. 11. Cheng, B., Schwing, A.G., Kirillov, A. 0.48
: Per-pixel classification is not all you need : ピクセル単位の分類は必要なだけではない 0.65
for semantic segmentation. セグメンテーションのためのものです 0.51
In: NIPS (2021) 院: NIPS(2021年) 0.76
12. Devlin, J., Chang, M., Lee, K., Toutanova, K. 12. Devlin, J., Chang, M., Lee, K., Toutanova, K 0.40
: BERT: pre-training of deep bidi- バート:深部ビディの事前訓練- 0.66
rectional transformers for language understanding. 言語理解のための屈折変換器 0.64
In: NAACL-HLT (2019) NAACL-HLT(2019年) 0.79
13. Ding, H., Liu, C., Wang, S., Jiang, X. 13. Ding, H., Liu, C., Wang, S., Jiang, X 0.40
: Vision-language transformer and query 視覚言語変換器と問合せ 0.67
generation for referring segmentation. セグメンテーションを参照するための生成。 0.54
In: ICCV (2021) 院:iccv(2021年) 0.71
14. Doersch, C., Gupta, A., Efros, A.A.: Unsupervised visual representation learning 14. doersch, c., gupta, a., efros, a.a.: unsupervised visual representation learning 0.44
by context prediction. 文脈予測によるものです 0.54
In: ICCV (2015) ICCV(2015年) 0.59
15. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N. 15. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N。 0.84
: An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードの価値がある:大規模画像認識用トランスフォーマー。 0.71
In: ICLR (2021) 院:ICLR(2021年) 0.76
16. Everingham, M., Gool, L.V., Williams, C.K.I., Winn, J.M., Zisserman, A. 16. エヴァリンガム, M., Gool, L.V., Williams, C.K.I., Winn, J.M., Zisserman, A. 0.78
: The pascal visual object classes (VOC) challenge. : pascal visual object class (voc) の略。 0.45
IJCV 88(2), 303–338 (2010) ijcv88(2)、303-338(2010年) 0.64
17. Fan, R., Cheng, M., Hou, Q., Mu, T., Wang, J., Hu, S. 17. 扇, R., Cheng, M., Hou, Q., Mu, T., Wang, J., Hu, S. 0.41
: S4Net: Single stage salient- :S4Net:シングルステージサリエント- 0.84
instance segmentation. インスタンスのセグメンテーション。 0.61
In: CVPR (2019) CVPR(2019年) 0.59
18. Fan, R., Hou, Q., Cheng, M., Yu, G., Martin, R.R., Hu, S. 18.ファン、R、フー、Q.、チェン、M.、Yu、G.、マーティン、R.R.、Hu、S. 0.72
: Associating inter-image salient instances for weakly supervised semantic segmentation. 画像の関連付け 弱教師付きセマンティックセグメンテーションのための健全なインスタンス。 0.52
In: ECCV (2018) イン:ECCV(2018) 0.54
19. Ghadiyaram, D., Tran, D., Mahajan, D. 19. Ghadiyaram, D., Tran, D., Mahajan, D. 0.42
: Large-scale weakly-supervised pre- 大規模弱監督型プレ- 0.47
training for video action recognition. ビデオアクション認識のためのトレーニング。 0.76
In: CVPR (2019) CVPR(2019年) 0.59
20. Ghiasi, G., Gu, X., Cui, Y., Lin, T. 20.Ghiasi,G.,Gu,X.,C ui,Y.,Lin,T。 0.70
: Open-vocabulary image segmentation. Open-vocabulary Image segmentation。 0.39
CoRR (2021) CoRR (2021) 0.42
21. Gupta, T., Vahdat, A., Chechik, G., Yang, X., Kautz, J., Hoiem, D. 21. Gupta, T., Vahdat, A., Chechik, G., Yang, X., Kautz, J., Hoiem, D. 0.42
: Contrastive learning for weakly supervised phrase grounding. 対照的に 弱教師付きフレーズグラウンドのための学習 0.44
In: ECCV (2020) イン:ECCV(2020) 0.77
22. Hariharan, B., Arbelaez, P., Bourdev, L.D., Maji, S., Malik, J. 22.ハリハラ,B.,Arbelaez,P.,Bour dev,L.D.,Maji,S.,Mal ik,J. 0.39
: Semantic contours from inverse detectors. 意味的輪郭 逆検知器から 0.49
In: ICCV (2011) ICCV(2011年) 0.60
英語(論文から抽出)日本語訳スコア
18 R. Strudel 18 R. Strudel 0.43
23. He, K., Gkioxari, G., Doll´ar, P., Girshick, R.B.: Mask R-CNN. 23. He, K., Gkioxari, G., Doll ́ar, P., Girshick, R.B.: Mask R-CNN 0.48
In: ICCV (2017) ICCV(2017年) 0.47
24. Hu, R., Rohrbach, M., Darrell, T. 24. Hu, R., Rohrbach, M., Darrell, T. 0.42
: Segmentation from natural language expres- 自然言語体験からのセグメンテーション- 0.68
sions. In: ECCV (2016) シオンだ In: ECCV (2016) 0.45
25. Hu, Z., Feng, G., Sun, J., Zhang, L., Lu, H. 25. Hu, Z., Feng, G., Sun, J., Zhang, L., Lu, H。 0.84
: Bi-directional relationship inferring network for referring image segmentation. 双方向関係推論 イメージセグメンテーションを参照するためのネットワーク。 0.64
In: CVPR (2020) CVPR(2020年) 0.62
26. Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K.Q.: Deep networks with 26. Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K.Q.: Deep Network with 0.45
stochastic depth. In: ECCV (2016) 確率的な深さ In: ECCV (2016) 0.46
27. Huang, Z., Wang, X., Wang, J., Liu, W., Wang, J. 27. huang, z., wang, x., wang, j., liu, w., wang, j. 0.31
: Weakly-supervised semantic segmentation network with deep seeded region growing. 弱教師付き意味論 深くシードされた領域が成長するセグメンテーションネットワーク。 0.48
In: CVPR (2018) CVPR(2018年) 0.40
28. Jia, C., Yang, Y., Xia, Y., Chen, Y., Parekh, Z., Pham, H., Le, Q.V., Sung, Y., Li, Z., Duerig, T. 28.Jia, C., Yang, Y., Xia, Y., Chen, Y., Parekh, Z., Pham, H., Le, Q.V., Sung, Y., Li, Z., Duerig, T
訳抜け防止モード: 28.Jia,C.,Yang,Y.,Xi a,Y. Chen, Y., Parekh, Z., Pham, H. Le, Q.V., Sung, Y., Li, Z. Duerig, T。
0.84
: Scaling up visual and vision-language representation learning with noisy text supervision. うるさいテキストによる視覚的・視覚的表現学習のスケールアップ。 0.65
In: ICML (2021) ICML(2021年) 0.59
29. Kamath, A., Singh, M., LeCun, Y., Misra, I., Synnaeve, G., Carion, N. 29.Kamath, A., Singh, M., LeCun, Y., Misra, I., Synnaeve, G., Carion, N. 0.39
: MDETR - modulated detection for end-to-end multi-modal understanding. MDETR -エンドツーエンドのマルチモーダル理解のための変調検出。 0.52
ICCV (2021) ICCV(2021年) 0.91
30. Kantorov, V., Oquab, M., Cho, M., Laptev, I. 30. カンポロフ, V., Oquab, M., Cho, M., Laptev, I 0.74
: Contextlocnet: Context-aware deep contextlocnet: コンテキスト・アウェア・ディープ 0.60
network models for weakly supervised localization. 弱教師付き局所化のためのネットワークモデル 0.63
In: ECCV (2016) In: ECCV (2016) 0.42
31. Kim, B., Han, S., Kim, J. 31. キム b. ハン s. キム j. 0.45
: Discriminative region suppression for weakly-supervised 弱教師のための差別的地域抑制 0.55
semantic segmentation. セマンティクスのセグメンテーション。 0.58
In: AAAI (2021) 院:ああいい(2021年) 0.56
32. Kingma, D.P., Ba, J. 32. Kingma, D.P., Ba, J. 0.50
: Adam: A method for stochastic optimization. adam: 確率最適化の一手法。 0.60
In: ICLR (2015) イン:ICLR (2015) 0.57
33. Kolesnikov, A., Lampert, C.H.: Seed, expand and constrain: Three principles for 33. Kolesnikov, A., Lampert, C.H.: 種、拡大、制約: 3つの原則 0.87
weakly-supervised image segmentation. 弱教師付き画像分割。 0.49
In: ECCV (2016) In: ECCV (2016) 0.42
34. Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L., Shamma, D.A., Bernstein, M.S., Fei-Fei, L. 34.Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L., Shamma, D.A., Bernstein, M.S., Fei-Fei, L。 0.93
: Visual genome: Connecting language and vision using crowdsourced dense image annotations. 視覚ゲノム:クラウドソースされた高密度画像アノテーションを用いた言語と視覚の接続。 0.63
IJCV 123(1), 32–73 (2017) IJCV 123(1), 32-73(2017) 0.35
35. Lee, J., Kim, E., Lee, S., Lee, J., Yoon, S. 35.リー、j、キム、e、リー、s、リー、j、ユン、s 0.49
: Frame-to-frame aggregation of active regions in web videos for weakly supervised semantic segmentation. 弱教師付き意味セグメンテーションのためのwebビデオ中のアクティブ領域のフレーム間アグリゲーション 0.74
In: ICCV (2019) ICCV(2019年) 0.60
36. Lee, S., Lee, M., Lee, J., Shim, H. 36.Lee,S.,Lee,M.,Lee ,J.,Shim,H。 0.70
: Railroad is not a train: Saliency as pseudo-pixel 鉄道は列車ではない:疑似ピクセルとしての敬礼 0.60
supervision for weakly supervised semantic segmentation. 弱教師付き意味セグメンテーションの監督 0.46
In: CVPR (2021) CVPR(2021年) 0.60
37. Li, D., Huang, J.B., Li, Y., Wang, S., Yang, M.H.: Weakly supervised object lo- 37. Li, D., Huang, J.B., Li, Y., Wang, S., Yang, M.H.: 弱監視対象lo-
訳抜け防止モード: 37 . li, d., huang, j. b., li. y.,wang,s.,yang,m.h. : 弱教師付きオブジェクトlo-
0.71
calization with progressive domain adaptation. プログレッシブドメイン適応による校正。 0.60
In: CVPR (2016) CVPR(2016年) 0.57
38. Li, L.H., Yatskar, M., Yin, D., Hsieh, C., Chang, K. 38. Li, L.H., Yatskar, M., Yin, D., Hsieh, C., Chang, K。 0.90
: VisualBERT: A simple and performant baseline for vision and language. VisualBERT: 視覚と言語のためのシンプルでパフォーマンスの高いベースライン。 0.74
arXiv preprint arXiv:1908.03557 (2019) arxivプレプリントarxiv:1908.03557 (2019) 0.41
39. Lin, T., Goyal, P., Girshick, R.B., He, K., Doll´ar, P. 39. Lin, T., Goyal, P., Girshick, R.B., He, K., Doll ́ar, P。 0.48
: Focal loss for dense object 高密度物体の焦点損失 0.59
detection. IEEE Trans. 検出 ieeeトランス。 0.48
Pattern Anal. Mach. パターンアナル。 マッハ 0.43
Intell. 42(2), 318–327 (2020) インテリ。 42(2), 318–327 (2020) 0.48
40. Liu, X., Li, L., Wang, S., Zha, Z., Meng, D., Huang, Q. 40u, X., Li, L., Wang, S., Zha, Z., Meng, D., Huang, Q。 0.38
: Adaptive reconstruction アダプティブ・リコンストラクション 0.49
network for weakly supervised referring expression grounding. 弱教師付き参照表現接地のためのネットワーク 0.64
In: ICCV (2019) ICCV(2019年) 0.60
41. Liu, Y., Wan, B., Ma, L., He, X. 41. liu, y., wan, b., ma, l., he, x. 0.34
: Relation-aware instance refinement for weakly 弱さに対するリレーショナル・アウェア・インスタンス・リファインメント 0.53
supervised visual grounding. 監督された視覚的接地 0.43
In: CVPR (2021) CVPR(2021年) 0.60
42. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B. 42.Liu,Z.,Lin,Y.,Cao ,Y.,H.,Wei,Y.,Zhang, Z.,Lin,S.,Guo,B
訳抜け防止モード: 42.Liu,Z.,Lin,Y.,Cao ,Y. Hu, H., Wei, Y., Zhang, Z. Lin , S., Guo , B。
0.81
: Swin trans- スイニングトランス- 0.27
former: Hierarchical vision transformer using shifted windows. 前者:シフトウインドウを用いた階層的視覚トランスフォーマー。 0.67
In: ICCV (2021) 院:iccv(2021年) 0.71
43. Loshchilov, I., Hutter, F. 43.Loshchilov, I., Hutter, F。 0.80
: Decoupled weight decay regularization. : 脱カップリング重量減衰正則化。 0.67
In: ICLR (2019) In: ICLR (2019) 0.42
44. Miech, A., Alayrac, J.B., Smaira, L., Laptev, I., Sivic, J., Zisserman, A. 44. Miech, A., Alayrac, J.B., Smaira, L., Laptev, I., Sivic, J., Zisserman, A. 0.46
: Endto-end learning of visual representations from uncurated instructional videos. 講義ビデオからの視覚表現のエンド・ツー・エンド学習 0.67
In: CVPR (2020) CVPR(2020年) 0.62
45. Papandreou, G., Chen, L., Murphy, K.P., Yuille, A.L.: Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation. 45. Papandreou, G., Chen, L., Murphy, K.P., Yuille, A.L.: Weakly-and semi-supervised learning of a Deep Convolutional network for semantic image segmentation。
訳抜け防止モード: 45 . Papandreou, G., Chen, L., Murphy K.P., Yuille, A.L. : 意味的イメージセグメンテーションのための深層畳み込みネットワークの弱弱と半教師付き学習
0.86
In: ICCV (2015) ICCV(2015年) 0.59
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
19 46. Pinheiro, P.H.O., Collobert, R. 19 46.Pinheiro, P.H.O., Collobert, R. 0.40
: From image-level to pixel-level labeling with con- : 画像レベルからコン付きピクセルレベルラベリング 0.77
volutional networks. In: CVPR (2015) 進化的ネットワーク CVPR(2015年) 0.59
47. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I. 47. ラドフォード, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I 0.85
: Learning transferable visual models from natural language supervision. 自然言語指導による伝達可能な視覚モデルの学習 0.80
In: ICML (2021) ICML(2021年) 0.59
48. Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M. 48. Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M.
訳抜け防止モード: 48 . Ramesh, A., Pavlov, M., Goh G., Gray, S., Voss, C., Radford, A. Chen, M。
0.80
, Sutskever, I. , Sutskever, I。 0.41
: Zero-shot text-to-image generation. ゼロショットテキスト画像生成。 0.71
In: ICML (2021) ICML(2021年) 0.59
49. Ren, S., He, K., Girshick, R.B., Sun, J. 49.Ren,S.,He,K.,Girs hick,R.B.,Sun,J。 0.80
: Faster R-CNN: towards real-time object より高速なR-CNN : リアルタイムオブジェクトに向けて 0.61
detection with region proposal networks. エリア提案ネットワークによる検出。 0.76
PAMI 39(6), 1137–1149 (2017) PAMI39(6)1137-1149(2 017) 0.58
50. Robbins, H., Monro, S. 50. ロビンス h. モンロ s. 0.41
: A stochastic approximation method. Annals of Mathe- 確率近似法 Mathe (複数形 Mathes) 0.33
matical Statistics (1951) マティカル統計(1951年) 0.60
51. Sennrich, R., Haddow, B., Birch, A. 51. Sennrich, R., Haddow, B., Birch, A. 0.43
: Neural machine translation of rare words with まれな単語のニューラル機械翻訳 0.52
subword units. サブワードユニット。 0.77
In: ACL (2016) In: ACL (2016) 0.42
52. Steiner, A., Kolesnikov, A., Zhai, X., Wightman, R., Uszkoreit, J., Beyer, L. 52. Steiner, A., Kolesnikov, A., Zhai, X., Wightman, R., Uszkoreit, J., Beyer, L. 0.42
: How to train your ViT? ViTのトレーニング方法は? 0.54
data, augmentation, and regularization in vision transformers. データ、拡張、および視覚変換器の正規化。 0.66
arXiv preprint arXiv:2106.10270 (2021) arxivプレプリントarxiv:2106.10270 (2021) 0.40
53. Strudel, R., Pinel, R.G., Laptev, I., Schmid, C. 53. Strudel, R., Pinel, R.G., Laptev, I., Schmid, C。 0.91
: Segmenter: Transformer for se- セグメンタ:se用変圧器 0.62
mantic segmentation. マンティックセグメンテーション。 0.58
ICCV (2021) ICCV(2021年) 0.91
54. Turc, I., Chang, M., Lee, K., Toutanova, K. 54.Turc,I.,Chang,M., Lee,K.,Toutanova,K. 0.35
: Well-read students learn better: The impact of student initialization on knowledge distillation. 学生の初期化が知識蒸留に及ぼす影響について考察した。 0.63
arXiv preprint arXiv:1908.08962 (2019) arxivプレプリントarxiv:1908.08962 (2019) 0.41
55. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, 55. ヴァスワニ, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser 0.85
L. , Polosukhin, I. L。 ポロスクヒン、私。 0.40
: Attention is all you need. 注意は、あなたが必要とするすべてです。 0.58
In: NIPS (2017) イン: NIPS (2017) 0.82
56. Wang, J., Jiang, H., Yuan, Z., Cheng, M., Hu, X., Zheng, N. 56. Wang, J., Jiang, H., Yuan, Z., Cheng, M., Hu, X., Zheng, N. 0.42
: Salient object detection: A discriminative regional feature integration approach. 有能な物体検出 : 識別的地域特徴統合手法 0.60
IJCV 123(2), 251–268 (2017) IJCV 123(2), 251-268 (2017) 0.42
57. Wei, Y., Feng, J., Liang, X., Cheng, M., Zhao, Y., Yan, S. 57. wei, y., feng, j., liang, x., cheng, m., zhao, y., yan, s. 0.35
: Object region mining with adversarial erasing: A simple classification to semantic segmentation approach. : 逆消去を伴う対象領域のマイニング:意味セグメンテーションアプローチへの簡単な分類 0.78
In: CVPR (2017) CVPR(2017年) 0.47
58. Wei, Y., Xiao, H., Shi, H., Jie, Z., Feng, J., Huang, T.S.: Revisiting dilated convolution: A simple approach for weakly- and semi-supervised semantic segmentation. 58. Wei, Y., Xiao, H., Shi, H., Jie, Z., Feng, J., Huang, T.S.: Revisiting dilated convolution: a simple approach for weakly- and semi-supervised semantic segmentation。
訳抜け防止モード: 58. Wei, Y., Xiao, H., Shi H., Jie, Z., Feng, J., Huang, T.S. : 拡張畳み込みの再考 弱弱・半教師付きセマンティックセマンティックセグメンテーションのための簡単なアプローチ。
0.82
In: CVPR (2018) CVPR(2018年) 0.40
59. Wu, C., Lin, Z., Cohen, S., Bui, T., Maji, S. 59. Wu, C., Lin, Z., Cohen, S., Bui, T., Maji, S. 0.42
: Phrasecut: Language-based image フレーズカット:言語に基づく画像 0.72
segmentation in the wild. 野生のセグメンテーション。 0.44
In: CVPR (2020) CVPR(2020年) 0.62
60. Xiao, F., Sigal, L., Lee, Y.J.: Weakly-supervised visual grounding of phrases with 60. xiao, f., sigal, l., lee, y.j.: weakly-supervised visual grounding of phrases with 0.42
linguistic structures. In: CVPR (2017) 言語構造。 CVPR(2017年) 0.59
61. Xu, J., Mello, S.D., Liu, S., Byeon, W., Breuel, T.M., Kautz, J., Wang, X. 61. xu, j., mello, s.d., liu, s., byeon, w., breuel, t.m., kautz, j., wang, x。
訳抜け防止モード: 61 Xu, J., Mello, S.D., Liu, S., Byeon, W., Breuel, T.M., Kautz J, Wang , X。
0.44
: Groupvit: Semantic segmentation emerges from text supervision. : Groupvit: セマンティックセグメンテーションはテキスト管理から生まれる。 0.56
CoRR (2022) CoRR(2022年) 0.42
62. Xu, M., Zhang, Z., Wei, F., Lin, Y., Cao, Y., Hu, H., Bai, X. 62.Xu, M., Zhang, Z., Wei, F., Lin, Y., Cao, Y., Hu, H., Bai, X
訳抜け防止モード: 62 Xu, M., Zhang, Z., Wei, F., Lin, Y., Cao, Y., Hu, H. 背番号はX。
0.79
: A simple baseline for zero-shot semantic segmentation with pre-trained vision-language model. 事前学習された視覚言語モデルを用いたゼロショットセマンティックセグメンテーションのためのシンプルなベースライン。 0.52
CoRR (2021) CoRR(2021年) 0.41
63. Ye, L., Rochan, M., Liu, Z., Wang, Y. 63. Y, L., Rochan, M., Liu, Z., Wang, Y. 0.42
: Cross-modal self-attention network for クロスモーダル自己注意ネットワーク 0.56
referring image segmentation. イメージセグメンテーションを参照。 0.78
In: CVPR (2019) CVPR(2019年) 0.59
64. Yu, L., Lin, Z., Shen, X., Yang, J., Lu, X., Bansal, M., Berg, T.L.: Mattnet: Mod- 64. Yu, L., Lin, Z., Shen, X., Yang, J., Lu, X., Bansal, M., Berg, T.L.: Mattnet: Mod-
訳抜け防止モード: 64 . ユ l. リン z. シェン x,yang,j.,lu,x.,bans al,m. berg , t.l. : mattnet : mod-
0.65
ular attention network for referring expression comprehension. 表現理解を参照するための正規注意ネットワーク。 0.69
In: CVPR (2018) CVPR(2018年) 0.40
65. Yu, L., Poirson, P., Yang, S., Berg, A.C., Berg, T.L.: Modeling context in referring 65. Yu, L., Poirson, P., Yang, S., Berg, A.C., Berg, T.L.: Modeling context in reference
訳抜け防止モード: 65.Yu,L.,Poirson,P., Yang, S., Berg , A.C., Berg , T.L. : 参照におけるモデリングコンテキスト
0.78
expressions. In: ECCV (2016) 表現。 In: ECCV (2016) 0.38
66. Yu, Z., Zhuge, Y., Lu, H., Zhang, L. 66.Yu,Z.,Zhuge,Y.,Lu ,H.,Zhang,L. 0.36
: Joint learning of saliency detection and weakly 塩分濃度検出の連関学習と弱体化 0.52
supervised semantic segmentation. 教師付きセマンティックセグメンテーション。 0.47
In: ICCV (2019) ICCV(2019年) 0.60
67. Zabari, N., Hoshen, Y. 67.Zabari, N., Hoshen, Y。 0.72
: Semantic segmentation in-the-wild without seeing any 意味的セグメンテーションについて : 見えないままに (特集 意味セグメンテーション) 0.36
segmentation examples. セグメンテーションの例。 0.69
CoRR (2021) CoRR(2021年) 0.41
英語(論文から抽出)日本語訳スコア
20 R. Strudel 20 R. Strudel 0.43
68. Zhou, B., Khosla, A., Lapedriza, `A. 68. Zhou, B., Khosla, A., Lapedriza, `A。 0.82
, Oliva, A., Torralba, A. , Oliva, A., Torralba, A。 0.81
: Learning deep features for discriminative localization. 深層的特徴の学習 差別的ローカライズのためです 0.60
In: CVPR (2016) CVPR(2016年) 0.57
69. Zhou, C., Loy, C.C., Dai, B. 69.周、c.、ロイ、c.c.、ダイ、b. 0.68
: Denseclip: Extract free dense labels from CLIP. : Denseclip: CLIP からフリーな高密度ラベルを抽出する。 0.74
CoRR (2021) CoRR (2021) 0.42
英語(論文から抽出)日本語訳スコア
Weakly-supervised segmentation of referring expressions 参照表現の弱教師付きセグメンテーション 0.65
21 7 Appendix Qualitative results. 21 7付録 質的な結果。 0.58
We present additional qualitative results in Figures 8 and 9. 数字8と9にさらに定性的な結果を示す。 0.72
In particular, we compare TSEG trained with weak supervision to the same model trained with full supervision in Figure 8. 特に、訓練されたtsegと弱い監督とを、図8の完全な監視で訓練された同じモデルと比較します。 0.57
TSEG captures cloth related concepts, animals and parts of the bodies reasonably well, however it can fail at capturing colors, distinguish between a book and a laptop, or between a blue jean and different type of trousers. TSEGは布のコンセプトや動物、身体の一部などを適切に捉えているが、色を捉えたり、本とラップトップを区別したり、ブルージャンと異なるタイプのズボンを区別することができない。 0.74
In Figure 9, we observe that TSEG captures a rich variety of visual concepts, even rarely occurring ones quite accurately. 図9では、TSEGは様々な視覚概念を捉えており、非常に正確に発生することは稀である。 0.77
Fig. 8: Comparison of TSEG to fully-supervised results on PhraseCut validation set. 図8: TSEG と PhraseCut 検証セットの完全な教師付き結果の比較。 0.75
(a) Both methods perform well. (a)どちらの方法も良好である。 0.71
(b) Both approaches do not distinguish well man and woman. (b) どちらのアプローチも男女をよく区別しない。 0.73
(c-d) TSEG captures coarse semantic meaning such as legs (c-d) TSEGは足のような粗い意味を捉える 0.58
(c) or surfboards (c)またはサーフボード 0.86
(d) but misses the difference between a book and a laptop (d)しかし、本とラップトップの違いを見逃している 0.71
(c) or color attributes (d). (c)または色属性 (d)。 0.64
(e) TSEG distinguishes the teddy bear and dog better than the fully-supervised model. (e)TSEGは、テディベアと犬を、完全教師付きモデルよりもよく区別する。 0.55
Fig. 9: Additional qualitative results of our approach TSEG. 図9:我々のアプローチ TSEG の質的結果の追加。 0.74
Our approach captures rarely occurring visual concepts such as a komodo dragon or a banana-made hat. 当社のアプローチでは,コモドドラゴンやバナナ製の帽子などの視覚的概念は稀である。 0.58
(a) (b) (d) (a) (b) (d) 0.43
(e) (c)TSEG Weak supervisionFull supervisionshort grasssmall childblackhelmetface blue jeansgreen shirtopenlaptopredsc arfblue surfboardswoman in shortred surfboarddogteddy bearsmiling manbrown giraffesmiling woman (e) (c)TSEG弱監督 全監督ショート草小子ブラックヘルデフェイスブルー ジーンズグリーンシャツラップトップレッドカーフブルー ショートレッドサーフボード クマスライスマンブラウンキリンスマイル女性 0.52
(a) (b) (c) (a) (b) (c) 0.43
(d)shirthorsebluejea nsbeige caphatbananasea lionkomodo dragonsandhelmetssco oteryellowbackpack (d)tシャツbluejeansbeige caphatbananasea lionkomodo dragonsandhelmetssco oteryellowbackpack 0.20
                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。