論文の概要: Gaussian Dynamic Convolution for Efficient Single-Image Segmentation
- arxiv url: http://arxiv.org/abs/2104.08783v1
- Date: Sun, 18 Apr 2021 09:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 07:50:49.285801
- Title: Gaussian Dynamic Convolution for Efficient Single-Image Segmentation
- Title(参考訳): 効率的な単一画像分割のためのガウス動的畳み込み
- Authors: Xin Sun, Changrui Chen, Xiaorui Wang, Junyu Dong, Huiyu Zhou, Sheng
Chen
- Abstract要約: ニューラルネットワークのコンテキスト情報を高速かつ効率的に集約するガウス力学畳み込み(GDC)を提案する。
当社のGDCは、軽量または複雑なセグメンテーションネットワークを構築するためのモジュールとして簡単に使用できます。
実験では、GDCが3つのベンチマークセグメンテーションデータセットで他の既存の畳み込みよりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 37.80759016943627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive single-image segmentation is ubiquitous in the scientific and
commercial imaging software. In this work, we focus on the single-image
segmentation problem only with some seeds such as scribbles. Inspired by the
dynamic receptive field in the human being's visual system, we propose the
Gaussian dynamic convolution (GDC) to fast and efficiently aggregate the
contextual information for neural networks. The core idea is randomly selecting
the spatial sampling area according to the Gaussian distribution offsets. Our
GDC can be easily used as a module to build lightweight or complex segmentation
networks. We adopt the proposed GDC to address the typical single-image
segmentation tasks. Furthermore, we also build a Gaussian dynamic pyramid
Pooling to show its potential and generality in common semantic segmentation.
Experiments demonstrate that the GDC outperforms other existing convolutions on
three benchmark segmentation datasets including Pascal-Context, Pascal-VOC
2012, and Cityscapes. Additional experiments are also conducted to illustrate
that the GDC can produce richer and more vivid features compared with other
convolutions. In general, our GDC is conducive to the convolutional neural
networks to form an overall impression of the image.
- Abstract(参考訳): インタラクティブなシングルイメージセグメンテーションは、科学および商業のイメージングソフトウェアにおいてユビキタスである。
本研究では,スクリブルなどの種子のみを用いた単一画像分割問題に焦点をあてる。
人間の視覚系における動的受容場に着想を得て,ニューラルネットワークの文脈情報を高速かつ効率的に集約するガウス動的畳み込み(gdc)を提案する。
中心となる考え方は、ガウス分布オフセットに従って空間サンプリング領域をランダムに選択することである。
我々のGDCは、軽量または複雑なセグメンテーションネットワークを構築するモジュールとして簡単に利用できる。
提案したGDCを用いて、典型的な単一画像分割タスクに対処する。
さらに,ガウスの動的ピラミッド・プールも構築し,そのポテンシャルと共通セマンティックセグメンテーションの一般性を示す。
実験によると、GDCはPascal-Context、Pascal-VOC 2012、Cityscapesを含む3つのベンチマークセグメンテーションデータセットで、既存の畳み込みよりも優れている。
また、GDCが他の畳み込みよりも豊かで鮮明な特徴を生み出すことを示すために、さらなる実験が行われた。
一般に、我々のgdcは畳み込みニューラルネットワークと結合し、画像の全体的な印象を形成する。
関連論文リスト
- GaussianCut: Interactive segmentation via graph cut for 3D Gaussian Splatting [7.392798832833857]
我々は3Dガウスアンとして表現されるシーンのインタラクティブなマルチビューセグメンテーション手法であるGaussianCutを紹介する。
このアプローチでは、単一のビューと対話することで、セグメンテーション対象を選択することができます。
ポイントクリック、粗いスクリブル、テキストなどの直感的なユーザー入力を受け入れる。
論文 参考訳(メタデータ) (2024-11-12T05:09:42Z) - PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - VDG: Vision-Only Dynamic Gaussian for Driving Simulation [112.6139608504842]
ポーズフリーな動的ガウス法(VDG)に自己教師付きVOを導入する。
VDGはRGB画像入力のみで動作可能で、ポーズフリーのダイナミックビュー合成法に比べて高速で広いシーンで動的シーンを構築することができる。
その結果,現状の動的ビュー合成法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-26T09:29:21Z) - Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - SPPNet: A Single-Point Prompt Network for Nuclei Image Segmentation [6.149725843029721]
核画像分割のためのシングルポイントプロンプトネットワークを提案する。
オリジナル画像エンコーダを軽量な視覚変換器に置き換える。
提案モデルはMoNuSeg-2018データセットで評価される。
論文 参考訳(メタデータ) (2023-08-23T16:13:58Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - The Semantic Mutex Watershed for Efficient Bottom-Up Semantic Instance
Segmentation [15.768804877756384]
本稿では,共同グラフ分割とラベリングのためのグリーディアルゴリズムを提案する。
アルゴリズムの効率のため、イメージをスーパーピクセルにオーバーセグメンテーションすることなく、直接ピクセル上で操作することができる。
論文 参考訳(メタデータ) (2019-12-29T19:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。