論文の概要、ライセンス

# (参考訳) セマンティックセグメンテーションのためのSTDC-MAネットワーク [全文訳有]

STDC-MA Network for Semantic Segmentation ( http://arxiv.org/abs/2205.04639v2 )

ライセンス: CC BY 4.0
Xiaochun Lei, Linjun Lu, Zetao Jiang, Zhaoting Gong, Chang Lu, Jiaming Liang(参考訳) セマンティクスセグメンテーションは、空間的およびセマンティクス情報を高い要求する方法で、自動運転とインテリジェントトランスポーテーションに広く適用されている。 ここではこれらの要求を満たすためにSTDC-MAネットワークを提案する。 第一に、STDC-Seg構造は軽量で効率的な構造を確保するためにSTDC-MAで使用される。 次に、機能アライメントモジュール(fam)を用いて、高レベル特徴と低レベル特徴のオフセットを理解し、高レベル特徴マップのアップサンプリングに関連する画素オフセットの問題を解決する。 提案手法は,高次特徴と低次特徴との効果的な融合を実現する。 1つの画像の2つの異なる入力サイズから注目領域間の関係を明らかにするために階層的多スケール注意機構を採用する。 この関係を通じて、多くの注意を払っている領域をセグメント化結果に統合し、入力画像の非集中領域を減らし、マルチスケール特徴の有効利用を改善する。 STDC-MAは、小さなオブジェクトのセグメンテーション精度を改善しつつ、STDC-Segネットワークとしてセグメンテーション速度を維持する。 STDC-MAはCityscapesの検証セットで検証された。 STDC-MAのセグメンテーション結果は、0.5xスケールの入力で76.81% mIOUに達し、STDC-Segよりも3.61%高い。

Semantic segmentation is applied extensively in autonomous driving and intelligent transportation with methods that highly demand spatial and semantic information. Here, an STDC-MA network is proposed to meet these demands. First, the STDC-Seg structure is employed in STDC-MA to ensure a lightweight and efficient structure. Subsequently, the feature alignment module (FAM) is applied to understand the offset between high-level and low-level features, solving the problem of pixel offset related to upsampling on the high-level feature map. Our approach implements the effective fusion between high-level features and low-level features. A hierarchical multiscale attention mechanism is adopted to reveal the relationship among attention regions from two different input sizes of one image. Through this relationship, regions receiving much attention are integrated into the segmentation results, thereby reducing the unfocused regions of the input image and improving the effective utilization of multiscale features. STDC- MA maintains the segmentation speed as an STDC-Seg network while improving the segmentation accuracy of small objects. STDC-MA was verified on the verification set of Cityscapes. The segmentation result of STDC-MA attained 76.81% mIOU with the input of 0.5x scale, 3.61% higher than STDC-Seg.
公開日: Wed, 11 May 2022 00:38:38 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] V C . s c [ ] 略称はC。 sc [ 0.39
2 v 9 3 6 4 0 2 v 9 3 6 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
STDC-MA NETWORK FOR SEMANTIC SEGMENTATION セマンティックセグメンテーションのためのSTDC−MAネットワーク 0.44
School of Computer Science and Information Security コンピュータ科学・情報セキュリティ研究科 0.69
School of Computer Science and Information Security コンピュータ科学・情報セキュリティ研究科 0.69
Guilin University of Electronic Technology Guilin University of Electronic Technology ギリン電子工学大学 ギリン電子工学大学 0.45
Xiaochun Lei Xiaochun (複数形 Xiaochuns) 0.16
Linjun Lu China, GuiLin 541010 lxc8125@guet.edu.cn 林純(りんじゅん) 中国、GuiLin 5410 lxc8125@guet.edu.cn 0.29
Zetao Jiang∗ Zetao Jiang∗ 0.44
China, GuiLin 541010 中国、GuiLin541010 0.37
zetaojiang@guet.edu. cn zetaojiang@guet.edu. cn 0.29
Chang Lu China, GuiLin 541010 Changlu@keter.top チャン・ル 中国、GuiLin 541010 Changlu@keter.top 0.43
China, GuiLin 541010 中国、GuiLin541010 0.37
linjunlu@zerorains.t op linjunlu@zerorains.t op 0.39
Zhaoting Gong Zhaoting Gong 0.43
China, GuiLin 541010 gavin@gong.host 中国、GuiLin 541010gavin@gong.hos t 0.85
Jiaming Liang Jiaming (複数形 Jiamings) 0.33
China, GuiLin 541010 中国、GuiLin541010 0.37
me@puqing.work me@puqing.work 0.39
School of Computer Science and Information Security コンピュータ科学・情報セキュリティ研究科 0.69
School of Computer Science and Information Security コンピュータ科学・情報セキュリティ研究科 0.69
Guilin University of Electronic Technology Guilin University of Electronic Technology ギリン電子工学大学 ギリン電子工学大学 0.45
School of Computer Science and Information Security コンピュータ科学・情報セキュリティ研究科 0.69
School of Computer Science and Information Security コンピュータ科学・情報セキュリティ研究科 0.69
Guilin University of Electronic Technology Guilin University of Electronic Technology ギリン電子工学大学 ギリン電子工学大学 0.45
ABSTRACT Semantic segmentation is applied extensively in autonomous driving and intelligent transportation with methods that highly demand spatial and semantic information. ABSTRACT セマンティクスセグメンテーションは、空間的およびセマンティクス情報を高い要求する方法で、自動運転とインテリジェントトランスポーテーションに広く適用されている。 0.53
Here, an STDC-MA network is proposed to meet these demands. ここではこれらの要求を満たすためにSTDC-MAネットワークを提案する。 0.63
First, the STDC-Seg structure is employed in STDC-MA to ensure a lightweight and efficient structure. 第一に、STDC-Seg構造は軽量で効率的な構造を確保するためにSTDC-MAで使用される。
訳抜け防止モード: まず、STDC-Seg構造がSTDC-MAで使用される 軽量で効率的な構造を実現するためです
0.63
Subsequently, the feature alignment module (FAM) is applied to understand the offset between high-level and low-level features, solving the problem of pixel offset related to upsampling on the high-level feature map. 次に、機能アライメントモジュール(fam)を用いて、高レベル特徴と低レベル特徴のオフセットを理解し、高レベル特徴マップのアップサンプリングに関連する画素オフセットの問題を解決する。 0.77
Our approach implements the effective fusion between high-level features and low-level features. 提案手法は,高次特徴と低次特徴との効果的な融合を実現する。 0.57
A hierarchical multiscale attention mechanism is adopted to reveal the relationship among attention regions from two different input sizes of one image. 1つの画像の2つの異なる入力サイズから注目領域間の関係を明らかにするために階層的多スケール注意機構を採用する。 0.70
Through this relationship, regions receiving much attention are integrated into the segmentation results, thereby reducing the unfocused regions of the input image and improving the effective utilization of multiscale features. この関係を通じて、多くの注意を払っている領域をセグメント化結果に統合し、入力画像の非集中領域を減らし、マルチスケール特徴の有効利用を改善する。 0.74
STDC- MA maintains the segmentation speed as an STDC-Seg network while improving the segmentation accuracy of small objects. STDC-MAは、小さなオブジェクトのセグメンテーション精度を改善しつつ、STDC-Segネットワークとしてセグメンテーション速度を維持する。 0.61
STDC-MA was verified on the verification set of Cityscapes. STDC-MAはCityscapesの検証セットで検証された。 0.67
The segmentation result of STDC-MA attained 76.81% mIOU with the input of 0.5x scale, 3.61% higher than STDC-Seg. STDC-MAのセグメンテーション結果は、0.5xスケールの入力で76.81% mIOUに達し、STDC-Segよりも3.61%高い。 0.53
Keywords semantic segmentation · autonomous driving and multiscale · feature alignment · attention mechanism and deep learning キーワード意味セグメンテーション・自動運転・マルチスケール・フィーチャーアライメント・注意機構・ディープラーニング 0.72
1 Introduction Semantic segmentation is s a classic computer vision task adopted widely in autonomous driving, video surveillance, robot perception, etc. 1 はじめに セマンティックセグメンテーションは、自律運転、ビデオ監視、ロボット知覚などにおいて広く採用されている古典的なコンピュータビジョンタスクである。
訳抜け防止モード: 1 はじめに セマンティックセグメンテーションは、自律運転で広く採用されている古典的なコンピュータビジョンタスクである。 ビデオ監視 ロボット認識などです
0.57
Unlike object detection, semantic segmentation aims to achieve pixel-wise classification. オブジェクト検出とは異なり、セマンティックセグメンテーションはピクセル単位で分類することを目指している。 0.59
It can provide detailed contour and category information of an object when applied in critical fields, including autonomous driving. 自律運転を含む重要な分野に適用する場合、オブジェクトの詳細な輪郭とカテゴリ情報を提供することができる。 0.72
The analysis of traffic behavior in Smart City and intelligent transportation can become more rational with semantic information. スマートシティにおける交通行動の分析とインテリジェントトランスポートはセマンティック情報でより合理的になる。 0.83
Although semantic segmentation methods are highly developed, much improvement is needed to achieve speed and accuracy in the realistic demand. セマンティックセグメンテーション手法は高度に開発されているが、現実的な需要の速度と精度を達成するためには、多くの改良が必要である。 0.56
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
The goal above is mainly achieved as follows: 主な目標は次のとおりである。 0.67
1) Cropping or adjusting the size of the input image to reduce the computational cost of the image segmentation. 1)画像セグメンテーションの計算コストを削減するため、入力画像のサイズを刻むか調整する。 0.71
However, this approach realizes the loss of spatial information [1, 2]. しかし,本手法は空間情報の喪失 [1, 2] を実現する。 0.77
2) Increasing the speed of model inference by reducing the number of channels for semantic segmentation, which successively reduces the space capacity of the model [3–5]. 2) セマンティックセグメンテーションのチャネル数を減らし, モデル [3-5] の空間容量を連続的に減少させることにより, モデル推論の速度を向上する。 0.87
3) In pursuit of a compact framework, part of the downsample layers may be abandoned, which reduces the receptive field of the model and become insufficient to cover large objects. 3) コンパクトな枠組みの追求において, ダウンサンプル層の一部が放棄され, モデルの受容場が小さくなり, 大型物体を覆うには不十分となる。 0.88
Notably, this approach may be associated with poor discrimination ability [5]. 特に、このアプローチは差別能力の低い[5]に関連付けられます。 0.66
Researchers developed a U-shape network structure to compensate for the loss of spatial details, which gradually improves spatial information [3, 5–7]. 研究者たちは空間の詳細の損失を補うためにu字型ネットワーク構造を開発し、空間情報[3, 5–7]を徐々に改善した。
訳抜け防止モード: 研究者がu字型ネットワーク構造を開発した 空間情報[3,5〜7]を徐々に改善する空間詳細の損失を補償する。
0.78
The missing details are filled by fusing the hierarchical features of the backbone network. 不足している詳細は、バックボーンネットワークの階層的特徴を融合することで埋められる。 0.67
However, this method has two disadvantages: しかし、この方法には2つの欠点がある。 0.55
1) The complete U-shaped structure extends the calculation of the model as it introduces high-resolution feature maps for additional calculations. 1) 完全なu字型構造は,追加計算のために高分解能特徴マップを導入することにより,モデルの計算を拡張する。 0.65
2) Challenges with restoring the spatial information cropped in the semantic segmentation model through simple upsampling and fusion. 2) 単純なアップサンプリングと融合によるセマンティックセグメンテーションモデルにおける空間情報の復元への課題 0.82
Therefore, the U-shaped structure is not the optimal solution, and we need to find a more lightweight and efficient structure. したがって、U字型構造は最適解ではなく、より軽量で効率的な構造を見つける必要がある。 0.79
Real-time semantic segmentation tasks have high demands for rich spatial information and multiscale semantic information. リアルタイムセマンティックセグメンテーションタスクは、豊富な空間情報とマルチスケールセマンティック情報を必要とする。 0.73
BiSeNet [8] employs a two-stream structure to replace the U-shaped structure and encodes spatial features and semantic information separately to produce excellent segmentation effects. BiSeNet [8]はU字型構造を置き換えるために2ストリーム構造を採用し、空間的特徴と意味情報を別々に符号化し、優れたセグメンテーション効果を生み出す。 0.69
However, the independent semantic encoding branch of BiseNet generates time-consuming calculations. しかし、bisenetの独立意味符号化ブランチは、時間消費計算を生成する。 0.61
Furthermore, pre-trained models from other tasks (including image classification) in the semantic branch of BiseNet are inefficient in semantic segmentation tasks. さらに、bisenetのセマンティックブランチにおける他のタスク(画像分類を含む)からの事前学習されたモデルは、セマンティックセグメンテーションタスクでは非効率である。 0.62
In STDC-Seg [9] (Short-Term Dense Concatenate Segmentation) network, a lightweight STDC backbone is designed to extract features. STDC-Seg [9] (Short-Term Dense Concatenate Segmentation) ネットワークでは,特徴抽出のための軽量STDCバックボーンが設計されている。 0.73
It eliminates feature redundancy on branches and utilizes edge detail information from ground truth to guide the spatial features learning. 枝上の特徴冗長性を排除し、地平からのエッジディテール情報を利用して空間的特徴学習を導く。 0.72
The STDC-Seg network has achieved satisfactory results in accuracy and speed; however, it does not consider the effect of different scale images on the network. stdc-segネットワークは精度と速度で十分な結果を得たが、ネットワーク上の異なるスケール画像の影響は考慮されていない。
訳抜け防止モード: STDC-Segネットワークは精度と速度の良好な結果を得た しかし,ネットワーク上の異なるスケール画像の影響は考慮されていない。
0.91
A previous study found different segmentation results of images with different scales in the same network [10]. 前回の研究では、同じネットワークで異なるスケールの画像の異なるセグメンテーション結果が見つかった[10]。 0.83
The segmentation accuracy of small objects is low in small-scale images but can achieve excellent results in large-scale images. 小型物体のセグメンテーション精度は, 小型画像では低いが, 大規模画像では良好な結果が得られる。 0.78
On the other hand, the segmentation effect of large objects (especially background) is poor in large-scale images but can be distinguished well in small-scale images. 一方、大規模な物体(特に背景)のセグメンテーション効果は、大規模画像では不十分であるが、小規模画像ではよく区別できる。 0.76
Therefore, we integrate the hierarchical multiscale attention mechanism into the STDC-Seg network to allow the model to learn the relationship of regions between different scales through attention. そこで本研究では,STDC-Segネットワークに階層的マルチスケールアテンション機構を組み込んで,異なるスケール間の領域関係を注意を通して学習する。 0.74
The model calculates the images of different scales combined with multiscale attention and learns high-quality features of different scales. モデルは、異なるスケールの画像を多スケールの注意と組み合わせて計算し、異なるスケールの高品質な特徴を学習する。
訳抜け防止モード: マルチスケールアテンションと異なるスケールの画像を算出するモデル さまざまなスケールの高品質な機能を学びます。
0.80
Simultaneously, STDC-Seg does not consider the problem of feature alignment during feature aggregation in the ARM module. 同時にSTDC-SegはARMモジュールの機能集約時の機能アライメントの問題を考慮していない。 0.76
Direct relationship between the pixels of the local feature map and the upsampled feature map causes inconsistency of the context, further decreasing the classification accuracy in the prediction. 局所特徴マップの画素とアップサンプリングされた特徴マップとの直接的な関係は、文脈の不整合を引き起こし、予測における分類精度をさらに低下させる。 0.74
To solve this problem, we integrated a feature alignment module (FAM) [11] in the STDC-Seg network. この問題を解決するため,STDC-Segネットワークに機能アライメントモジュール(FAM)[11]を組み込んだ。 0.75
Our STDC-MA network is based on the STDC2 backbone network of the STDC- Seg. 我々のSTDC-MAネットワークはSTDC-SegのSTDC2バックボーンネットワークに基づいている。 0.65
STDC-MA integrates hierarchical multiscale attention [10] into the STDC-Seg. STDC-MAは階層的マルチスケール注意[10]をSTDC-Segに統合する。 0.59
We integrated the attention regions of images at different scales of one image into the segmentation results of the STDC-MA network. stdc-maネットワークのセグメンテーション結果に,画像の注目領域を1画像の異なるスケールで統合した。 0.66
This approach improves the effective application of multiscale features and solves the problem of rough segmentation in some regions, achieved using a single-scale image. このアプローチは、マルチスケール特徴の有効利用を改善し、単一スケール画像を用いて達成した、いくつかの領域における粗いセグメンテーションの問題を解決する。 0.63
At the same time, we employed the feature alignment module (FAM) and feature selection module (FSM) described previously [11] to replace the original ARM module. 同時に、元のARMモジュールを置き換えるために、前述した[11]の機能アライメントモジュール(FAM)と機能選択モジュール(FSM)を採用しました。 0.82
This strategy (i)solves the problem of pixel offset associated with high-level feature upsampling and この戦略は (i)高レベル機能アップサンプリングに伴う画素オフセット問題とその解決 0.79
(ii) realizes the effective combination of high-level features and low-level features. (ii)高レベル特徴と低レベル特徴の効果的な組み合わせを実現する。 0.78
As a result, the segmentation results become more accurate on small objects. その結果,小物体に対してより精度の高いセグメンテーション結果が得られた。 0.73
We tested the accuracy of our model using a verification dataset of Cityscapes. 都市景観の検証データセットを用いてモデルの精度を検証した。 0.77
[12] Under the input of 0.5x scale, the segmentation result of STDC-MA reached 76.81% mean intersection over union (mIOU), 3.61% higher than STDC-Seg. [12] 0.5倍スケールの入力では, STDC-MAのセグメンテーション結果は76.81%, STDC-Segよりも3.61%高かった。 0.67
2 Relate Works 2.1 Lightweight Network 関連作品2 2.1 軽量ネットワーク 0.65
The segmentation network relies on a robust feature extraction network as the backbone network to obtain sufficient semantic information. セグメンテーションネットワークは、十分な意味情報を得るために、バックボーンネットワークとして堅牢な特徴抽出ネットワークに依存している。
訳抜け防止モード: セグメンテーションネットワークはバックボーンネットワークとしてロバストな特徴抽出ネットワークに依存している 十分な意味情報を得る。
0.79
The backbone network mainly extracts the main features in the image, and its structure significantly impacts the performance of the segmentation network. バックボーンネットワークは主に画像の主要な特徴を抽出し、その構造はセグメンテーションネットワークの性能に大きな影響を及ぼす。 0.81
ResNet [13], for instance, utilizes a residual block to achieve excellent feature extraction effects. 例えば resnet [13] は残差ブロックを利用して優れた特徴抽出効果を実現している。 0.84
The backbone network is the most computationally intensive part of the entire semantic segmentation model. バックボーンネットワークは、セマンティックセグメンテーションモデル全体の最も計算集約的な部分である。 0.78
Researchers have shifted their focus to the lightweight design of the backbone network to pursue real-time segmentation speed. 研究者たちは、リアルタイムのセグメンテーションスピードを追求するために、backboneネットワークの軽量設計に焦点を移した。
訳抜け防止モード: 研究者らはバックボーンネットワークの軽量設計に焦点を移した リアルタイムセグメンテーションのスピードを追求する。
0.81
MobileNetV1 [14] uses deep separable con-volution to reduce FLOPs (Floating-point operations, used to measure the complexity of algorithms/models) in the inference stage. MobileNetV1[14]は、推論段階でFLOP(Floating-point Operation、アルゴリズム/モデルの複雑さを測定するために使用される)を減らすために、深い分離可能な畳み込みを使用する。 0.58
SqueezeNet [15] employs several 1× 1 convolutions to replace 3 × 3 convolutions and uses the Fire module to reduce the model parameters. SqueezeNet [15]は、3×3の畳み込みを置き換えるために複数の1×1の畳み込みを使用し、モデルパラメータを減らすためにFireモジュールを使用する。 0.64
ShuffleNetV1 [16] proposes the channel shuffle operation to compensate for the lack of information exchange between point-by-point grouping convolutions shufflenetv1 [16] は、ポイントバイポイントグルーピング畳み込み間の情報交換の欠如を補償するチャネルシャッフル動作を提案する 0.76
2 2 0.42
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
and reduce network calculations. ネットワーク計算を削減できます 0.75
GhostNet [17] adopts a few primitive convolution operations plus a series of simple linear changes to generate more features to reduce the overall parameters and calculations. ghostnet [17]はいくつかのプリミティブ畳み込み操作と一連の単純な線形変更を採用し、全体的なパラメータと計算を減らすためにより多くの機能を生成する。
訳抜け防止モード: GhostNet [17 ]は、いくつかのプリミティブな畳み込み操作と一連の単純な線形変更を採用する 全体的なパラメータと計算を 減らすためです
0.82
The lightweight network designs demonstrate excellent performance in semantic segmentation. 軽量ネットワーク設計はセマンティックセグメンテーションにおいて優れた性能を示す。 0.74
However, originally, the purpose of the network designs was to achieve image classification. しかし、元々はネットワーク設計の目的は画像分類を達成することであった。 0.89
Of note, a few adjustments or module improvements are warranted when applying the backbones to semantic segmentation. セマンティックセグメンテーションにバックボーンを適用する場合、いくつかの調整やモジュールの改善が保証される。 0.63
2.2 Real-time Semantic Segmentation 2.2 リアルタイム意味セグメンテーション 0.62
The two strategies to ensure segmentation accuracy and speed in real-time semantic segmentation include リアルタイム意味セグメンテーションにおけるセグメンテーションの精度と速度を保証する2つの戦略 0.74
1) Lightweight backbone network. 1)軽量バックボーンネットワーク。 0.71
LRNet [18] adopts factorized convolution block (FCB) to establish long-distance relationships and implement a lightweight and efficient feature extraction network. LRNet [18] は、因数分解畳み込みブロック(FCB)を採用し、長距離関係を確立し、軽量で効率的な特徴抽出ネットワークを実装している。
訳抜け防止モード: LRNet [18 ] は分解畳み込みブロック (FCB) を採用する 長距離関係を確立し、軽量で効率的な特徴抽出ネットワークを実装する。
0.73
DFANet [19] uses a lightweight network to reduce computational costs and develop cross-level aggregation modules for improving segmentation accuracy. DFANet[19]は軽量ネットワークを用いて計算コストを削減し,セグメンテーション精度を向上させるためのクロスレベルアグリゲーションモジュールを開発する。 0.68
2) Multi-branch structure BiseNetV1 [8] proposes a two-stream structure of low-level details and high-level background information. 2) マルチブランチ構造 bisenetv1 [8] は,低レベル詳細情報と高レベル背景情報の2つのストリーム構造を提案する。 0.70
STDC-Seg [9] inherits the BiseNet two-stream structure, optimizes the extractor of low-level and high-level details to achieve better performance. STDC-Seg [9]は、BiseNetの2ストリーム構造を継承し、低レベルおよび高レベルの詳細の抽出を最適化し、より良いパフォーマンスを実現する。 0.56
However, these real-time semantic segmentation models fail to consider the impact of inputs of different scales on the model. しかし、これらのリアルタイムセマンティックセグメンテーションモデルは、異なるスケールの入力がモデルに与える影響を考慮できない。 0.76
Here, we designed the STDC-MA network based on the work of STDC-Seg to compensate for the image scale impact. そこで我々は,STDC-Segの作業に基づいてSTDC-MAネットワークを設計し,画像スケールの影響を補償した。 0.71
2.3 Muitiscale context methods 2.3 ミューティスケール・コンテキスト・メソッド 0.65
The backbone network with a low output stride can solve better the fine detail problem in image segmentation. 低出力ストライドのバックボーンネットワークは、画像セグメンテーションにおいてより詳細な問題を解決することができる。 0.75
However, this design reduces the receptive field, posing difficulty to the network to predict large objects in the scene. しかし、この設計は受容野を減少させ、ネットワークに困難をもたらし、シーン内の大きな物体を予測する。 0.72
Notably, the pyramid structure can attenuate the impact of the receptive field reduction by cascading the multiscale contexts. 特に、ピラミッド構造は、マルチスケールなコンテキストをカスケードすることで、受容的場減少の影響を弱めることができる。 0.61
In [20] high-level features of the encoder structure integrate all channel maps through dense channel relationships learned by the channel correlation coefficient attention module to refine the mask of output. 20] エンコーダ構造の高レベルな特徴は, チャネル相関係数アテンションモジュールによって学習された高密度チャネル関係を通して, 全てのチャネルマップを統合し, 出力のマスクを洗練させる。 0.73
PSPNet [21] utilizes a spatial pyramid cascade module. PSPNet[21]は空間ピラミッドカスケードモジュールを利用する。 0.81
The combination of features in the last layer of the module with multiscale features is achieved through a series of convolution operations. モジュールの最後のレイヤの機能とマルチスケールの機能の組み合わせは、一連の畳み込み操作によって実現される。 0.77
DeepLab [22, 23] employs atrous spatial pyramid pooling (ASPP) with different dilations of convolution to create denser features. deeplab [22, 23]は、畳み込みの異なる拡張を持つatrous spatial pyramid pooling (aspp)を採用し、より密集した特徴を作り出す。
訳抜け防止モード: DeepLab [22, 23 ] は畳み込みの異なるアラスラス空間ピラミッドプール(ASPP)を用いる より密集した特徴を生み出します
0.83
Hierarchical multiscale attention mechanism [10] realizes dense feature aggregation between any two scales by learning the attention relationship between images of different scales. 階層的多スケール注意機構[10]は、異なるスケールの画像間の注意関係を学習することにより、任意の2つのスケール間の密集した特徴集約を実現する。
訳抜け防止モード: 階層的マルチスケールアテンション機構 [10] は任意の2つのスケール間の密集的特徴凝集を実現する 異なるスケールのイメージ間の注意関係を学習します
0.70
We integrated the hierarchical multiscale attention mechanism based on the STDC-Seg work to solve the impact of different scales on the segmentation work. 我々は,STDC-Segに基づく階層型マルチスケールアテンション機構を統合し,セグメンテーション作業における異なるスケールの影響を解決する。 0.77
In [24], they proposed a regional growth algorithm based on the Gaussian pyramid to refine the edge of the output mask. 24]では、出力マスクの端を洗練するためにガウスピラミッドに基づく地域成長アルゴリズムを提案した。 0.73
2.4 Feature Alignment 2.4機能アライメント 0.68
The Feature Alignment Module aligns the semantic relationship between different feature maps in the feature fusion module. 機能アライメントモジュールは、feature fusionモジュールの異なる機能マップ間のセマンティックな関係を調整します。 0.83
It ensures that the feature relationship of the context does not produce large deviations, which successively improves model segmentation accuracy. コンテキストの特徴関係が大きなずれを生じないようにし、モデルのセグメンテーション精度を継続的に改善する。 0.66
In the SegNet [3] network, the encoder stores the position information of the maximum pooling and employs the index of the maximum pooling in the decoder for upsampling. SegNet[3]ネットワークでは、エンコーダは最大プールの位置情報を格納し、最大プールのインデックスをデコーダに使用してアップサンプリングを行う。 0.72
The RoI Align, [25] avoids quantization calculation, and the value of each RoI is calculated by bilinear interpolation, solving the problem of feature misalignment associated with quantization in RoI Pooling. RoIアライメント[25]は量子化計算を回避し、各RoIの値は双線形補間により計算され、RoIプーリングにおける量子化に伴う特徴の不一致の問題を解決する。 0.76
EDVR [26] utilizes the PCD Alignment module constructed via deformable convolution [27] to achieve feature alignment on a single scale. EDVR[26]は、変形可能な畳み込み[27]によって構築されたPCDアライメントモジュールを利用して、1つのスケールで特徴アライメントを実現する。
訳抜け防止モード: EDVR[26 ]は変形可能な畳み込みによるPCDアライメントモジュールを利用する[27 ] 単一スケールで機能アライメントを達成するのです
0.83
3 Proposed Methods 3.1 Short-Term Dense Concatenate with Multiscale Attention and Alignment Network 3つの提案方法 3.1 複数スケールの注意とアライメントネットワークを有する短期密結合体 0.68
Our work employs the feature alignment module [11] and the hierarchical multiscale attention mechanism [10] to the STDC-Seg network and designs a short-term dense concatenate with multiscale attention and alignment (STDC-MA) network. 本研究は,STDC-Segネットワークに特徴アライメントモジュール[11]と階層的マルチスケールアライメント機構[10]を採用し,マルチスケールアライメント・アライメント(STDC-MA)ネットワークを備えた短期密集集合体を設計する。 0.69
The Feature Alignment Module learns the offset between high-level and low-level features and introduces a feature selection module to generate low-level feature maps with rich spatial information. 特徴アライメントモジュールは,高次特徴と低次特徴の相違点を学習し,空間情報に富んだ低次特徴マップを生成する機能選択モジュールを導入する。 0.79
This method combines the offset with enhanced low-level features. この方法はオフセットと低レベル特徴の強化を組み合わせたものである。 0.60
It solves the problem of pixel offset during the fusion of high-level and low-level features, fully utilizing the high-level and low-level image features. ハイレベルと低レベルの機能を融合させる際の画素オフセットの問題を解決し、ハイレベルと低レベルの画像機能を完全に活用する。
訳抜け防止モード: 高レベルおよび低レベル特徴の融合における画素オフセットの問題を解決する。 高いレベルと低いレベルのイメージ機能を完全に活用する。
0.74
The hierarchical multiscale attention mechanism learns the relationship of attention regions from two different input sizes of one image to compound the attention from different receptive fields. 階層的多スケール注意機構は、1画像の2つの異なる入力サイズから注意領域の関係を学習し、異なる受容野からの注意を複合する。 0.74
This approach reduces the unfocused regions of the input image, fully utilizing the multiscale features to solve the problem of rough mask edges. このアプローチは入力画像の非フォーカス領域を削減し、マルチスケール機能を十分に活用し、粗いマスクエッジの問題を解決する。 0.73
The STDC-MA network structure is shown in Fig 1. STDC-MAネットワーク構造を図1に示す。 0.82
The network learns hierarchical multiscale attention between the two scales of 1.0x and 0.5x at once during training. ネットワークはトレーニング中に2つのスケールの1.0倍と0.5倍の階層的なマルチスケールの注意を学習する。 0.60
In inference, hierarchical multiscale attention fusion is used according to the number of input images with different 推論では、異なる入力画像の数に応じて階層的多スケール注意融合が使用される 0.85
3 3 0.42
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
Figure 1: The structure of the STDC-MA network. 図1:STDC-MAネットワークの構造。 0.73
The STDC-Algin denotes the STDC-Seg network with the feature alignment module (FAM) added. STDC-Alginは、機能アライメントモジュール(FAM)が追加されたSTDC-Segネットワークを表す。 0.67
The Spatial Attention Module denotes the hierarchical multiscale attention module. 空間的注意モジュールは階層的多スケール注意モジュールを表す。 0.80
All Spatial Attention modules in the inference use the same parameters. 推論におけるすべての空間的注意モジュールは、同じパラメータを使用する。 0.64
scales. Numerous hierarchical multiscale attention modules are shown in Fig 1. スケール。 多数の階層的マルチスケールアテンションモジュールが図1に示されている。 0.68
In practice, a similar hierarchical multiscale attention module uses the same parameters. 実際には、同様の階層型マルチスケールアテンションモジュールは同じパラメータを使用する。 0.71
Compared to the separated attention for different scales, this design significantly reduces the parameters. 異なるスケールに対する注意の分離と比較すると、この設計はパラメータを大幅に削減する。 0.75
Our STDC-MA network achieves 76.81% mIOU on Cityscapes [12] validation data set with input image (scale, 0.5), 3.61% higher than STDC-Seg [9]. 我々のSTDC-MAネットワークは,STDC-Seg [9]よりも3.61%高い入力画像(スケール,0.5)で設定した都市景観[12]検証データセット上で76.81%のmIOUを達成する。 0.65
3.2 Hierarchical Multiscale Attention 3.2 階層型マルチスケールアテンション 0.54
Investigation of hierarchical multiscale attention demonstrated that the output masks for different scale inputs differ even if the input is derived from the same image [10]. 階層的マルチスケールの注意調査により,同一画像から入力が導出されても,異なるスケール入力に対する出力マスクが異なることが分かった [10]。 0.84
Images of different scales contain different spatial information. 異なるスケールの画像は異なる空間情報を含んでいる。 0.73
For instance, large-scale images have detailed spatial information, and extraction of semantic features is challenging. 例えば、大規模な画像には詳細な空間情報があり、意味的特徴の抽出は困難である。 0.69
Therefore, small objects are segmented accurately in the segmentation results of high-scale input images, while large objects have rough segmentation. したがって、大物体は粗いセグメント化を有するが、小物体は、高スケール入力画像のセグメント化結果において正確にセグメント化される。
訳抜け防止モード: そのため、高速入力画像のセグメンテーション結果において、小さなオブジェクトを正確に分割する。 大きなオブジェクトは粗いセグメンテーションを持つ。
0.70
On the other hand, the spatial information of the low-scale image is rough, and the semantic feature is easy to extract. 一方、低スケール画像の空間情報は粗雑であり、意味的特徴の抽出が容易である。 0.63
Therefore, large objects are segmented accurately in the segmentation results of low-scale input images, while small objects have rough segmentation. したがって、小物体は粗いセグメント化であるのに対し、大物体は低スケールの入力画像のセグメント化結果において正確にセグメント化される。 0.64
Taking full advantage of different scales to refine the output of the segmentation network is problematic. セグメンテーションネットワークの出力を洗練させるために、さまざまなスケールを最大限に活用することは問題となる。 0.54
As such, hierarchical multiscale attention proposes to learn the relationship between the attention regions at different scales of one image to integrate the attention regions in different receptive fields. そこで階層的マルチスケールアテンションは、1つの画像の異なるスケールでアテンション領域間の関係を学習し、異なる受容領域にアテンション領域を統合することを提案する。 0.58
This method reduces the unfocused areas of the input image and improves the segmentation accuracy of the network for small target objects. この方法は、入力画像の非集中領域を削減し、小さな対象オブジェクトに対するネットワークのセグメンテーション精度を向上させる。 0.77
The ASPP in DeepLab [22, 23] utilizes dilation convolutions to create a denser feature aggregation. deeplab [22, 23]のasppは拡張畳み込みを利用して、より密集した特徴集約を生成する。 0.55
Although a larger receptive field was obtained in these designs, different areas of interest corresponding to different scales were not recognized clearly. これらの設計ではより大きな受容野が得られたが、異なるスケールに対応する異なる関心領域が明確に認識されなかった。 0.70
Hierarchical multiscale attention differs from previous attention mechanisms, which focus on 階層的マルチスケールアテンションは、注目する以前のアテンションメカニズムとは異なる 0.65
Presult = G(Si) × αi + G(Si+1) × (1 − αi) 前提 = G(Si) × αi + G(Si+1) × (1 − αi) 0.46
(1) 4 STDC-AlignSpatial AttentionSTDC-Align:Pixel-Wise Multiplication:Additiontraininferen ceSTDC-AlignSpatial AttentionSTDC-AlignS patial AttentionSTDC-AlignS patial AttentionSTDC-AlignR esizeResultSpatial AttentionSigmoid3×3 ConvBNReLU3×3 ConvBNReLU1×1 ConvResultGTsize 1size 2size 2size 1size 3size 4size :0.25x~2.0x (1) 4 STDC-AlignSpatial AttentionSTDC-AlignS patial AttentionSTDC-AlignS patial AttentionSTDC-AlignR esizeResultSpatial AttentionSigmoid3×3 ConvBNReLU3×3 ConvBNReLU1×1 ConvResultGTsize 1size 2size 1size 3size 3size 4size :0.25x~2.0x 0.35
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
Figure 2: Multiscale fusion of any two-scale of inputs. 図2: 任意の2スケールの入力のマルチスケール融合。 0.78
The structure of the Spatial Attention module is shown in Fig 1. 空間注意モジュールの構造は、図1に示される。 0.68
Figure 3: The structure of the STDC-Align network. 図3:STDC-Alignネットワークの構造。 0.73
FAM denotes the Feature Alignment Model. FAMは特徴アライメントモデルを表す。 0.80
FFM denotes the FFM (複数形 FFMs) 0.50
Feature Fusion Module in STDC-Seg [9]. STDC-Seg[9]の機能融合モジュール。 0.79
single feature maps. シングル・フィーチャー・マップ 0.64
Hierarchical multiscale attention learns the relationship between any two input scales, effectively reducing the consumption of excessive attention mechanism calculations. 階層的マルチスケールアテンションは、2つの入力スケール間の関係を学習し、過剰なアテンション機構計算の消費を効果的に削減する。 0.57
Let S = S1, S2, ..., SN denotes the collection of images with different N scales. S = S1, S2, ..., SN は異なる N スケールの画像の集合を表す。 0.81
Si(1 ≤ i ≤ N ) denotes the ith scale of the image, and the scale of Si is smaller than the Si+1. Si(1 ≤ i ≤ N ) は画像の等級を表し、Si の等級は Si+1 よりも小さい。 0.64
The fusion of hierarchical multiscale attention modules involves a series of fusions between any higher-level feature map and the corresponding lower-level feature map (Fig 2). 階層的多スケール注意モジュールの融合は、任意の高レベル特徴マップと対応する低レベル特徴マップ(fig2)との一連の融合を含んでいる。 0.74
The feature fusion of Si and Si+1 is defined as: Where Presult denotes the output of the inputs in Si and Si+1. Si と Si+1 の特徴融合は次のように定義される: Presult は Si と Si+1 における入力の出力を表す。 0.79
G(·) denotes a segmentation network; αi denotes the hierarchical multiscale attention between Si and Si+1. G(·) はセグメンテーションネットワークを表し、αi はSi と Si+1 の間の階層的多重スケールの注意を表す。 0.71
The hierarchical multiscale attention is integrated into the STDC-Align network to determine the feature relationship between different scales, guiding the extraction of different regions of interest to refine the segmentation mask. 階層的マルチスケールの注意をstdc-alignネットワークに統合し、異なるスケール間の特徴関係を判定し、異なる関心領域の抽出を導き、セグメンテーションマスクを洗練する。 0.71
Here, we propose the final semantic segmentation model STDC-MA, which improves the segmentation accuracy of small objects. 本稿では,小物体のセグメンテーション精度を向上させる最終意味セグメンテーションモデルstdc-maを提案する。 0.77
3.3 Short-Term Dense Concatenate Align Network 3.3 短周期Dense Concatenate Align Network 0.71
The short-term dense concatenate network (STDC-Seg) [9] follows the two-stream design structure of BiseNetV1 [8]. 短期密集連結ネットワーク(STDC-Seg)[9]は,BiseNetV1[8]の2ストリーム設計構造に従う。 0.86
It employs the STDC as the backbone to extract both semantic and spatial features, establishing an efficient and lightweight design. STDCをバックボーンとして、意味的特徴と空間的特徴の両方を抽出し、効率的で軽量な設計を確立する。
訳抜け防止モード: STDCをバックボーンとして使用する 意味的特徴と空間的特徴を抽出し 効率的で軽量なデザインを確立します
0.73
The ARM module of STDC-Seg is a feature aggregation module that does not consider the problem of pixel offset during feature aggregation between different feature maps, which is solved by a practical feature alignment module. STDC-Seg の ARM モジュールは,機能アライメントモジュールによって解決される,異なる特徴マップ間の特徴アグリゲーションにおける画素オフセットの問題を考慮していない機能アグリゲーションモジュールである。 0.85
In SegNet [3], the encoder employs the position of maximum pooling to enhance upsampling. SegNet[3]では、エンコーダは最大プールの位置を使ってアップサンプリングを強化する。 0.67
Of note, the problem of pixel shift is solved but part of the feature information is lost in the image after max pooling, which cannot be compensated for by upsampling. なお、画素シフトの問題は解決されるが、マックスプーリング後の画像では、特徴情報の一部が失われるので、アップサンプリングでは補償できない。 0.67
In Feature Alignment Module (FAM) [11], the feature selection module (FSM) is applied to enhance the rich spatial information of low-level feature maps, ensuring that the final alignment result is as close to the ground truth as possible. 特徴アライメントモジュール(FAM)[11]では、特徴選択モジュール(FSM)を適用して、低レベル特徴マップの豊富な空間情報を強化し、最終的なアライメント結果が可能な限り地上真実に近いことを保証する。 0.83
To solve the problem of pixel misalignment, our method employs deformable convolution (DCN) [27] to learn the feature offset between two feature maps. 画素不一致問題を解決するために,2つの特徴マップ間の特徴オフセットを学ぶために,変形可能な畳み込み(dcn) [27] を用いる。 0.74
Then the model uses the offset to guide the procedure of feature alignment. 次に、モデルがオフセットを使用して、機能アライメントの手順をガイドする。 0.63
The FAM module achieves the same effect for feature map fusion as the ARM aggregation module in the STDC-Seg network. FAMモジュールはSTDC-SegネットワークにおけるARMアグリゲーションモジュールと同じ機能マップ融合効果を達成する。 0.83
Also, the parameters of the FAM module are 1.3M lower than the ARM module. また、FAMモジュールのパラメータはARMモジュールよりも1.3M低い。 0.74
In this manner, we replaced このように我々は入れ替わった 0.80
5 FAMFAMFFMUpsampleGro und truthConcatAvgpoolAv gpool 5 FAMFAMFFMUpsampleGro und truthConcatAvgpoolAv gpool 0.42
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
the ARM aggregation module with the Feature Alignment Module (FAM) and proposed an STDC-Align network, structured as demonstrated in Fig 3. 機能アライメントモジュール(fam)を備えたアームアグリゲーションモジュールは、図3に示すように構成されたstdc-alignネットワークを提案した。
訳抜け防止モード: Feature Alignment Module (FAM) によるARMアグリゲーションモジュール そして、図3に示すように構造化されたSTDC-Alignネットワークを提案した。
0.78
Figure 4: The structure of the feature selection module. 図4: 特徴選択モジュールの構造。 0.65
The upper branch denotes channel attention. 上枝はチャネル注意を示す。 0.61
Mul denotes Mul (複数形 Muls) 0.19
multiplication. 3.4 Feature Alignment and Feature Selection Module 乗算。 3.4 特徴アライメントと特徴選択モジュール 0.70
3.4.1 Feature Selection Module 3.4.1 特徴選択モジュール 0.62
The feature selection module (FSM) utilizes channel attention (corresponding to the upper branch of Fig 4) to enhance the spatial information in the low-level features. 特徴選択モジュール(FSM)は、チャンネルアテンション(図4の上枝に対応する)を利用して、低レベルの特徴における空間情報を強化する。 0.81
This process is defined as: このプロセスは次のように定義されます。 0.52
Pselected = φ(Plow) Pselected = φ(Plow) 0.43
(2) φ(Plow) = Conv(σ(WselectionPlow) × Plow + Plow) (2) φ(Plow) = Conv(σ(WselectionPlow) × Plow + Plow) 0.42
(3) Where Pselecteddenotes the feature map after feature selection; Plow denotes the low-level feature map; φ(·) denotes the feature selection process corresponding to the FSM, which successively selects the features of the current feature map; Conv denotes 1 × 1 convolution; σ(·) denotes the sigmoid function; Wselection denotes learnable parameters. (3) Pselecteddenotes the feature map after feature selection; Plowは低レベル特徴写像; φ(·)はFSMに対応する特徴選択過程を表し、これは現在の特徴写像の特徴を連続的に選択する; Convは1×1の畳み込み; σ(·)はシグモイド関数; Wselectionは学習可能なパラメータを表す。 0.88
In the implementation, the learned parameters, Wselectionand Plow, are constructed into channel attention to realize the selection function of the feature selection module. 実装では、学習されたパラメータであるwselectionとplowがチャネル注意に構築され、特徴選択モジュールの選択機能を実現する。 0.84
The structure of the feature selection module is outlined in Fig 4. 特徴選択モジュールの構造は、図4に概説されている。 0.89
3.4.2 Feature Alignment Module 3.4.2 機能アライメントモジュール 0.58
Feature alignment module (FAM) employs deformable convolution (DCN) [27] to learn the offset between the high-level feature map and the FSM-derived feature map. 機能アライメントモジュール(fam)は変形可能な畳み込み(dcn)[27]を使用して、高レベル特徴マップとfsm由来特徴マップの間のオフセットを学習する。 0.74
This method utilizes the offset to achieve feature alignment and fusion between Pselected and high-level feature map Phigh. オフセットを利用して、Pselected と High-level Feature Map Phigh 間の特徴アライメントと融合を実現する。 0.71
The aligned feature map is denoted by Paligned. 整列特徴写像は paligned で示される。 0.50
This process is defined as: このプロセスは次のように定義されます。 0.52
Paligned = ψ(Pselected, Phigh) Paligned = s(Pselected, Phigh) 0.42
(4) Paligned = f ([Conv([Pselected, Phigh]), Phigh]) + Pselected (4) Paligned = f ([Conv([Pselected, Phigh]), Phigh]) + Pselected 0.37
(5) Where Paligned denotes the aligned feature map; f (·) denotes the deformable convolution (corresponding to DCN in Fig. 5)); Conv denotes 1 × 1 convolution; [·,·] denotes the channel-wise concat of two feature maps. (5) P が整列した特徴写像を表す場合、f (·) は変形可能な畳み込み(図 5 の DCN に対応する)を表し、Conv は 1 × 1 の畳み込みを表す。
訳抜け防止モード: (5 ) P が整列した特徴写像を表すとき、f ( · ) は変形可能な畳み込み(図 の DCN に対応する)を表す。 5 ) ; Conv は 1 × 1 の畳み込み ; [ ·, · ] はチャネルを表します。
0.69
In implementing the feature alignment module, the high-level feature map is upsampled to the same size as the feature map selected by the feature selection module before concatenating. 機能アライメントモジュールを実装する際、高レベルな機能マップは、結合前に機能選択モジュールが選択した機能マップと同じサイズにアップサンプリングされる。 0.82
At the same time, the deformable convolution is employed to calculate the concatenate result to achieve the effect of feature alignment. 同時に、変形可能な畳み込みを用いて連結結果の計算を行い、特徴アライメントの効果を達成する。 0.71
Lastly, the selected feature map and the aligned feature map are added by pixel. 最後に、選択した特徴マップと整列した特徴マップをピクセルで追加する。 0.72
The structure of the feature alignment module is shown in Fig 5. 特徴アライメントモジュールの構造は、図5に示す。 0.70
6 Avg Pool1×1 ConvSigmoid1×1 ConvmulPSelectedPLow 6 Avg Pool1×1 ConvSigmoid1×1 ConvmulPSelectedPLow 0.35
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
Figure 5: Structure of the feature alignment module. 図5: 機能アライメントモジュールの構造。 0.69
DCN denotes the deformable convolution. DCNは変形可能な畳み込みを表す。 0.65
4 Experimental Results and Discussion 4.1 Dataset 4 実験結果と考察 4.1 データセット 0.65
The presently established method is implemented using the Cityscapes [12] dataset, a widely used semantic scene analysis dataset, including scenes between different cities from the perspective of a vehicle-mounted camera. 現在確立されている手法は、車両搭載カメラの観点から異なる都市間のシーンを含む、広く使われているセマンティックシーン分析データセットであるCityscapes[12]データセットを用いて実装されている。 0.69
Cityscapes contain 5000 fine annotated images divided into training, validation, and test sets with 2975, 500, and 1525 images, respectively. 都市景観は、それぞれ2975、500、1525の画像からなる訓練、検証、およびテストセットに分割された5000の細かい注釈付き画像を含んでいる。 0.62
The dataset comprises 30 classes of labels, 19 of which are utilized for semantic segmentation tasks; these images have a high resolution of 2048x1024. データセットは30種類のラベルで構成されており、そのうち19つはセマンティックセグメンテーションタスクに利用されており、これらの画像の解像度は2048x1024である。
訳抜け防止モード: データセットはラベルの30のクラスで構成されており、19のクラスはセマンティックセグメンテーションタスクに使用される 画像の解像度は2048×1024。
0.77
In most cases, the Cityscapes data set is used in pre-training models of vision models for autonomous driving, therefore, poses a challenge for semantic segmentation tasks. 多くの場合、Cityscapesデータセットは自律運転のためのビジョンモデルの事前学習モデルで使用されるため、セマンティックセグメンテーションタスクでは課題となる。 0.73
In our investigation, we used the fine annotated training set and evaluated our model on the validation set. 本研究では, 詳細な注釈付きトレーニングセットを用いて, 検証セット上でのモデルの評価を行った。 0.68
4.2 Training Details and Evaluation Indicators 4.2 研修内容と評価指標 0.78
The model developed herein was trained on a Tesla A100 with image input resolution of 1024x512 and Adam as the optimizer. ここで開発されたモデルは、画像入力解像度1024x512のTesla A100で訓練され、アダムがオプティマイザとして使用された。
訳抜け防止モード: ここで開発されたモデルは、画像入力解像度が1024x512のTesla A100で訓練された。 そしてオプティマイザはAdamです。
0.54
The initial learning rate was set to 0.0001, β = (0.9, 0.999),  = 1e− 08, no weight decay. 初期学習率は0.0001, β = (0.9, 0.999) に設定され、重量減少は認められなかった。 0.79
A total of 60,000 iterations were trained using batch size 8, and mIOU was applied for validation, measuring the overlap degree between segmentation results and ground truth. 合計6万回のイテレーションをバッチサイズ8でトレーニングし,検証のためにmiouを適用し,セグメンテーション結果と基底真理の重なり度を測定した。 0.67
4.3 Ablation Study 4.3 アブレーション研究 0.71
In this section, the effectiveness of each part of the STDC-MA network was verified gradually. 本稿では,STDC-MAネットワークの各部分の有効性を徐々に検証した。 0.76
However, in future experiments, we shall make improvements based on the work of the STDC-Seg [9] network and evaluate the model on the Cityscapes [12] validation data set. しかし,今後の実験ではSTDC-Seg [9]ネットワークの作業に基づいて改善を行い,Cityscapes [12]検証データセットのモデルを評価する。 0.78
4.3.1 Ablation for Feature Alignment Module 4.3.1 特徴アライメントモジュールのアブレーション 0.60
The present research found that the ARM module in the STDC-Seg network [9] is a feature aggregation module between different feature maps. 本研究では,STDC-SegネットワークのARMモジュール [9] が,異なる特徴マップ間の機能集約モジュールであることを確認した。 0.79
Notably, because this module does not account for feature alignment, it was substituted with the feature alignment module (FAM) [11], and we proposed our STDC-Align network. 特に,本モジュールは機能アライメントを考慮しないため,機能アライメントモジュール (FAM) [11] に代えて,STDC-Align ネットワークを提案した。 0.69
The analysis demonstrated that, at the input scale of 0.5, our STDC-Align network achieved 73.57% mIOU, 0.37% higher than STDC-Seg. その結果, 0.5の入力スケールではSTDC-Alignネットワークは73.57% mIOU, 0.37%高くなった。 0.75
Furthermore, the parameters of our STDC-Align network were 21.0M, 1.3M less than that of STDC-Seg. さらに,STDC-AlignネットワークのパラメータはSTDC-Segよりも21.0M,1.3M小さくなった。 0.64
4.3.2 Ablation for Hierarchical Multi-scale Attention 4.3.2階層的マルチスケール注意のためのアブレーション 0.46
Here, the hierarchical multiscale attention mechanism [10] is utilized in the STDC-Seg network [9], with the view that this method can identify different parts of interest between different scales and achieve complementary advantages. ここでは,STDC-Segネットワーク [9] では階層的マルチスケールアテンション機構 [10] を利用して,異なるスケール間の関心の異なる部分を識別し,相補的な優位性を実現する。 0.81
Scale images (0.5x and 1.0x) are used as input for training to learn the attention relationship between two different scales. スケールイメージ(0.5xと1.0x)は、2つの異なるスケール間の注意関係を学習するためのトレーニングの入力として使用される。
訳抜け防止モード: トレーニング用入力にはスケールイメージ(0.5xと1.0x)が使用される 2つの異なるスケールの注意関係を 学べます
0.73
Subsequently, the results of different scale combinations (the scale can be chosen in [0.25x, 0.5x, 1.0x, 1.5x, 2.0x]) are tested on the Cityscapes [12] validation data set. その後、[0.25x, 0.5x, 1.0x, 1.5x, 2.0x]のスケールの組み合わせの結果をCityscapes[12]検証データセット上で検証する。 0.74
The results are presented in Table 1. 結果は表1に示されています。 0.75
7 ConcatDCN+ReLU1×1 ConvConcatPlowPhighP alignedFSM 7 ConcatDCN+ReLU1×1 ConvConcatPlowPhighP alignedFSM 0.28
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
Table 1: The performance of different scale combinations. 表1:異なるスケールの組み合わせのパフォーマンス。 0.73
Scale combination denotes the input combinations in a スケールの組み合わせはaの入力の組み合わせを表す 0.81
hierarchical multiscale attention mechanism. 階層的マルチスケールアテンション機構 0.78
Scale combination スケールの組み合わせ 0.79
Mean IOU(%) 0.5x+1.0x 平均IOU(%) 0.5x+1.0x 0.49
1.0x+2.0x 0.5x+1.0x+1.5x 1.0x+2.0x 0.5x+1.0x+1.5x 0.14
1.0x+1.5x+2.0x 1.0x+1.5x+2.0x 0.08
0.5x+1.0x+1.5x+2.0x 0.5x+1.0x+1.5x+2.0x 0.06
0.25x+0.5x+1.0x+1.5x+2.0x 0.25x+0.5x+1.0x+1.5x+2.0x 0.05
72.98 74.55 72.98 74.55 0.29
75.68 76.11 75.68 76.11 0.29
76.53 76.55 76.53 76.55 0.29
4.4 Comparison of our methods and output mask with STDC-Seg 4.4 出力マスクとSTDC-Segの比較 0.79
The segmentation result of the STDC-MA network achieved higher performance in mIOU, providing evidence that our method is effective. STDC-MAネットワークのセグメンテーション結果はmIOUにおいて高い性能を示し,本手法が有効であることを示す。 0.73
Table 2 shows the performance indicators of our network. 表2は、我々のネットワークのパフォーマンス指標を示す。 0.76
Compared to the structure of the STDC-Seg network [9], the structure of the STDC-MA network adds a hierarchical multiscale attention mechanism. STDC-Segネットワークの構造と比較すると,STDC-MAネットワークの構造には階層的なマルチスケールアテンション機構が加えられている。 0.78
It employs a feature alignment module to replace the ARM module, decreasing 0.1M parameters and increasing 3.61% mIOU. armモジュールに代わる機能アライメントモジュールを採用しており、0.1mのパラメータが減少し、3.61%のmiouが増加する。 0.58
Table 2: Performance of STDC-Seg network and our method. 表2:STDC-Segネットワークの性能と方法 0.72
STDC-Seg is the baseline of our work. STDC-Segは私たちの仕事のベースラインです。 0.66
STDC-Align network replaces the ARM module with the FAM module. STDC-AlignネットワークはARMモジュールをFAMモジュールに置き換える。 0.83
STDC-MA represents the final network proposed in this STDC-MAが提案する最後のネットワーク 0.81
article. Method STDC-Seg [9] 記事。 方法 STDC-Seg [9] 0.51
STDC-Align(our) STDC-Align 0.29
STDC-Seg+Muti-scale Attention(our) STDC-Seg+Muti-scale Attention(ur) 0.29
STDC-MA(our) STDC-MA(我が社) 0.64
Flops 73.32G 72.14G 103.73G 102.27G フロップ73.32g 72.14g 103.73g 102.27g 0.31
Parmas Mean IOU(%) 22.3M 21.0M 23.4M 22.2M パーマ平均iou(%)22.3m21.0m23.4 m22.2m 0.36
73.20 73.57 76.55 76.81 73.20 73.57 76.55 76.81 0.23
The output of the STDC-MA network is shown in Fig 6. STDC-MAネットワークの出力を図6に示す。 0.78
The presently developed method is smoother and more accurate on small objects. 本手法は小型物体においてより滑らかで高精度である。 0.65
In the first row, our STDC-MA network obtained a more accurate mask of street lights than the STDC-Seg network [9]. 第1行では,STDC-MAネットワークはSTDC-Segネットワーク [9] よりも正確な街灯マスクを得た。 0.83
In the second and third rows, the STDC-Seg network mistakenly predicted the railings. 2行目と3行目では、STDC-Segネットワークが誤って手すりを予測した。 0.46
In the fourth and fifth rows, our STDC-MA network demonstrates a smoother result in predicting the pedestrian, similar to the ground truth, and better than the STDC-Seg network. 4行目と5行目では,STDC-MAネットワークは,地上の真実と同じような歩行者を予測し,STDC-Segネットワークより優れていることを示す。 0.73
5 Conclusions The STDC-MA network, integrating hierarchical multiscale attention mechanism [10] and feature selection module [11], is proposed for the semantic segmentation task. 結論5 セグメンテーションタスクに対して,階層型マルチスケールアテンション機構[10]と特徴選択モジュール[11]を統合したSTDC-MAネットワークを提案する。 0.75
The hierarchical multiscale attention mechanism is employed to learn the relationship of attention regions from two different input sizes of one image. 階層的多スケール注意機構を用いて、2つの画像の入力サイズから注意領域の関係を学習する。 0.70
Through this relationship, the different regions that the attention is focused on are integrated into the segmentation results. この関係を通じて、注意が集中する異なる領域がセグメンテーション結果に統合される。 0.61
The present method makes up for the defect of the STDC-Seg network in the multiscale concern problem and improves the accuracy of the small object segmentation. 本手法は,マルチスケール問題におけるstdc-segネットワークの欠陥を補い,小型オブジェクトセグメンテーションの精度を向上させる。 0.74
References [1] Zifeng Wu, Chunhua Shen, and Anton van den Hengel. 参考文献 [1]Zifeng Wu、Chunhua Shen、Anton van den Hengel。 0.48
Real-time semantic image segmentation via spatial 空間によるリアルタイム意味画像セグメンテーション 0.71
sparsity. ArXiv, abs/1712.00213, 2017. あいまいさ arxiv、abs/1712.00213、2017年。 0.41
[2] Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi, and Jiaya Jia. [2]ヘンシュアン・ジャオ、Xiaojuan Qi、Xiaoyong Shen、Jianping Shi、Jiaya Jia。 0.51
Icnet for real-time semantic segmentation on high-resolution images. 高分解能画像のリアルタイム意味セグメンテーションのためのicnet 0.54
In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2018年9月、欧州コンピュータビジョン会議(ECCV)に参加。 0.66
[3] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. vijay badrinarayanan、alex kendall、roberto cipollaなど。 0.45
Segnet: A deep convolutional encoder-decoder architecture for image segmentation. Segnet: 画像セグメンテーションのための深層畳み込みエンコーダデコーダアーキテクチャ。 0.89
IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12):2481–2495, 2017. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12):2481–2495, 2017 0.46
[4] Francois Chollet. フランソワ・ショレット(Francis Chollet)。 0.52
Xception: Deep learning with depthwise separable convolutions. Xception: 深く分離可能な畳み込みによるディープラーニング。 0.66
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. IEEEの成果 コンピュータビジョン・パターン認識会議(CVPR) 2017年7月。 0.61
[5] Adam Paszke, Abhishek Chaurasia, Sangpil Kim, and Eugenio Culurciello. 5]Adam Paszke氏、Abhishek Chaurasia氏、Sangpil Kim氏、Eugenio Culurciello氏。 0.36
Enet: A deep neural network Enet: ディープニューラルネットワーク 0.63
architecture for real-time semantic segmentation. リアルタイムセマンティックセグメンテーションのためのアーキテクチャ。 0.58
ArXiv, abs/1606.02147, 2016. arxiv、abs/1606.02147、2016年。 0.52
8 8 0.42
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
Figure 6: Comparison of the segmentation effect obtained by our approach and that of STDC-Seg network. 図6:本手法によるセグメンテーション効果とstdc-segネットワークのセグメンテーション効果の比較。 0.76
(a) denotes the original image of the input segmentation network; (a) 入力セグメンテーションネットワークの原画像を表す。 0.62
(b) denotes the output result of the image through the STDC-MA b)STDC-MAを介して画像の出力結果を示す 0.82
network; (c) denotes the output result of the image through the STDC-Seg network; ネットワーク; c)STDC-Segネットワークを介して画像の出力結果を示す。 0.78
(d) denotes the ground truth. (d)は根本真理を表す。 0.77
[6] Saining Xie and Zhuowen Tu. [6]XieとZhuowen Tuをさかのぼる。 0.71
Holistically-nested edge detection. In Proceedings of the IEEE International エッジ検出の法則。 IEEE国際会議に参加して 0.71
Conference on Computer Vision (ICCV), December 2015. コンピュータビジョン会議(ICCV) 2015年12月。 0.76
[7] Xiaoyan Wang, Luyao Wang, Xingyu Zhong, Cong Bai, Xiaojie Huang, Ruiyi Zhao, and Ming Xia. 【7】青王王、王ルヤオ、宗元、元梅、西王王、ルイイ・ジャオ、明西 0.52
Painet: A modified u-net of reducing semantic gap for surgical instrument segmentation. Painet: 手術器具のセグメンテーションにおける意味ギャップを低減するためのu-netの改良。 0.57
IET Image Processing, 15(12):2959–2969, 2021. iet画像処理, 15(12):2959-2969, 2021。 0.82
[8] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. [8]長慶、金坊王、チャオ・ペン、チャンシン・ガオ、Gang Yu、Nong Sang。 0.61
Bisenet: Bilateral segmentation network for real-time semantic segmentation. Bisenet: リアルタイムセマンティックセグメンテーションのための双方向セグメンテーションネットワーク。 0.65
In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2018年9月、欧州コンピュータビジョン会議(ECCV)に参加。 0.66
[9] Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Wei, Zhenhua Chai, Junfeng Luo, and Xiaolin Wei. 九]明元扇、山陽文、黄海順志、白石平、白華茶井、黄泉ルーオ、青林ワイ。 0.54
In Proceedings of the IEEE/CVF Conference on IEEE/CVFカンファレンスに参加して 0.83
Rethinking bisenet for real-time semantic segmentation. リアルタイムセマンティクスセグメンテーションのためのbisenetの再検討。 0.56
Computer Vision and Pattern Recognition (CVPR), pages 9716–9725, June 2021. コンピュータビジョン・パターン認識(cvpr)、9716-9725ページ、2021年6月。 0.71
[10] Andrew Tao, Karan Sapra, and Bryan Catanzaro. 10]アンドリュー・タオ、カラン・サプラ、ブライアン・カタンザロ 0.48
Hierarchical multi-scale attention for semantic segmentation. セマンティクスセグメンテーションのための階層的マルチスケール注意 0.73
ArXiv, abs/2005.10821, 2020. arxiv、abs/2005.10821、2020年。 0.53
[11] Shihua Huang, Zhichao Lu, Ran Cheng, and Cheng He. [11]シワ・フン、ジチャオ・ル、ラン・チェン、チェン・ヘ。 0.40
Fapn: Feature-aligned pyramid network for dense image Fapn:高密度画像のための特徴整列ピラミッドネットワーク 0.68
prediction. ArXiv, abs/2108.07058, 2021. 予測だ ArXiv, abs/2108.07058, 2021。 0.51
[12] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele。
訳抜け防止モード: 12] マリウス・コルデ、モハメド・オムラン、セバスチャン・ラモス timo rehfeld, markus enzweiler, rodrigo benenson, uwe franke, ステファン・ロスと バーント・シエレ
0.56
The cityscapes dataset for semantic urban scene understanding. 意味的都市景観理解のための都市景観データセット。 0.66
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) にて、2016年6月に発表された。 0.83
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [13]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.26
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 院 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016年6月開催。 0.59
[14] Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. 12]Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam。
訳抜け防止モード: [14 ]Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto そしてハルトヴィヒ・アダム。
0.82
Mobilenets: Efficient convolutional neural networks for mobile vision applications. Mobilenets: モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワーク。 0.75
ArXiv, abs/1704.04861, 2017. arxiv、abs/1704.04861、2017年。 0.55
9 9 0.43
英語(論文から抽出)日本語訳スコア
Running Title for Header ヘッダーのランニング・タイトル 0.77
[15] Forrest N. Iandola, Matthew W. Moskewicz, Khalid Ashraf, Song Han, William J. Dally, and Kurt Keutzer. Forrest N. Iandola、Matthew W. Moskewicz、Khalid Ashraf、Song Han、William J. Dally、Kurt Keutzer。
訳抜け防止モード: 15 ]forrest n. iandola, matthew w. moskewicz, khalid ashraf, ソング・ハン、ウィリアム・j・ダリー、カート・キューツァー。
0.64
Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <1mb model size. Squeezenet: 50倍少ないパラメータと<1mbモデルサイズのAlexnetレベルの精度。 0.81
ArXiv, abs/1602.07360, 2016. arxiv、abs/1602.07360、2016年。 0.55
[16] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. [16]Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、Jian Sun。 0.34
Shufflenet: An extremely efficient convolutional neural network for mobile devices. Shufflenet: モバイルデバイス用の極めて効率的な畳み込みニューラルネットワーク。 0.83
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018年6月。
訳抜け防止モード: コンピュータビジョンとパターン認識に関するIEEE会議(CVPR)の開催報告 2018年6月。
0.73
[17] Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, and Chang Xu. 【17]カイ・ハン、ユンヘ・ワン、チー・天、ジャンユアン・グオ、チュンジュ・ジュ、チャン・ク 0.43
Ghostnet: More features from cheap operations. Ghostnet: 安価な操作による機能追加。 0.80
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) に参加して
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition (CVPR) に参加して 2020年6月。
0.87
[18] Weihao Jiang, Zhaozhi Xie, Yaoyi Li, Chang Liu, and Hongtao Lu. [18]ワイホー・ジャン、Zhaozhi Xie、Yaoyi Li、Chang Liu、およびHongtao Lu。 0.73
Lrnnet: A light-weighted network with efficient reduced non-local operation for real-time semantic segmentation. lrnnet: リアルタイムセマンティクスセグメンテーションのための非局所操作を効率的に削減した軽量ネットワーク。 0.78
In 2020 IEEE International Conference on Multimedia Expo Workshops (ICMEW), pages 1–6, 2020. 2020年、IEEE International Conference on Multimedia Expo Workshops (ICMEW)、1-6頁。 0.72
[19] Hanchao Li, Pengfei Xiong, Haoqiang Fan, and Jian Sun. [19]ハンチョ・リ、Pengfei Xiong、Haoqiang Fan、Jian Sun。 0.59
Dfanet: Deep feature aggregation for real-time semantic segmentation. Dfanet: リアルタイムセマンティックセグメンテーションのためのディープ機能アグリゲーション。 0.59
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2019年6月。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition (CVPR) に参加して 2019年6月。
0.88
[20] Dongli Wang, Nanjun Li, Yan Zhou, and Jinzhen Mu. [20]ドングリ・ワン、ナンジュン・リー、ヤン・ジュ、ジンジン・ム。 0.49
Bilateral attention network for semantic segmentation. セマンティックセグメンテーションのための双方向アテンションネットワーク 0.67
IET Image Processing, 15(8):1607–1616, 2021. IET 画像処理, 15(8):1607–1616, 2021。 0.65
[21] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. [21]ヘンシュアン・ジャオ、ジャンピング・シー、Xiaojuan Qi、Xiaogang Wang、Jiaya Jia。 0.49
Pyramid scene parsing network. ピラミッドシーン解析ネットワーク。 0.60
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 院 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2017年7月開催。 0.59
[22] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille. Liang-Chieh Chen氏、George Papandreou氏、Iasonas Kokkinos氏、Kevin Murphy氏、Alan L. Yuille氏。 0.37
Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. deeplab: 深い畳み込みネット、強い畳み込み、完全に接続されたcrfを備えたセマンティックイメージセグメンテーション。 0.66
IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4):834–848, 2018. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4):834–848, 2018 0.46
[23] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Liang-Chieh Chen氏、George Papandreou氏、Florian Schroff氏、Hartwig Adam氏。 0.34
Rethinking atrous convolution for 重大な畳み込みを再考する 0.48
semantic image segmentation. セマンティックイメージのセグメンテーション。 0.71
ArXiv, abs/1706.05587, 2017. arxiv、abs/1706.05587、2017年。 0.56
[24] Jianjun Jiao, Xiaopeng Wang, Jungping Zhang, and Qingsheng Wang. [24]Jianjun Jiao、Xiaopeng Wang、Jungping Zhang、Qingsheng Wang。 0.70
Salient region growing based on gaussian ガウシアンに基づくサルエント地域の成長 0.66
pyramid. IET Image Processing, 15(13):3142–3152, 2021. ピラミッド iet画像処理, 15(13):3142-3152, 2021。 0.60
[25] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. 25]彼、ジョージア・グキオクサーリ、ピョートル・ドル、ロス・ガーシック 0.50
Mask r-cnn. In Proceedings of the IEEE 仮面r-cnn。 IEEEの成果 0.37
International Conference on Computer Vision (ICCV), Oct 2017. 国際コンピュータビジョン会議(ICCV) 2017年10月。 0.73
[26] Xintao Wang, Kelvin C.K. Chan, Ke Yu, Chao Dong, and Chen Change Loy. [26]新潮、ケルビン・C・チャン、ケユ、チャオ・ドン、チェンチェン・チェン・ロイ。 0.55
Edvr: Video restoration with enhanced deformable convolutional networks. edvr: 変形可能な畳み込みネットワークを備えたビデオ復元。 0.71
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2019
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops に参加して 2019年6月。
0.89
[27] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. 【27】慈風台、羽西清、遊wen Xiong、Yi Li、Guodong Zhang、Han Hu、Yichen Wei。 0.65
Deformable convolutional networks. 変形可能な畳み込み ネットワーク。 0.63
In Proceedings of the IEEE International Conference on Computer Vision (ICCV), Oct 2017. 2017年10月、IEEE International Conference on Computer Vision (ICCV) に参加。 0.72
10 10 0.42
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。