論文の概要: Densely connected multidilated convolutional networks for dense
prediction tasks
- arxiv url: http://arxiv.org/abs/2011.11844v2
- Date: Wed, 9 Jun 2021 00:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:05:56.795853
- Title: Densely connected multidilated convolutional networks for dense
prediction tasks
- Title(参考訳): 密結合型多重拡張畳み込みネットワークによる密集予測タスク
- Authors: Naoya Takahashi, Yuki Mitsufuji
- Abstract要約: 密結合多重化DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために単一の層に異なる拡張因子を持つ新しい多重化畳み込みを含む。
Cityscapes を用いた画像セマンティックセグメンテーションタスクと MUSDB18 を用いた音源分離タスクの実験により,提案手法は最先端手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 25.75557472306157
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tasks that involve high-resolution dense prediction require a modeling of
both local and global patterns in a large input field. Although the local and
global structures often depend on each other and their simultaneous modeling is
important, many convolutional neural network (CNN)-based approaches interchange
representations in different resolutions only a few times. In this paper, we
claim the importance of a dense simultaneous modeling of multiresolution
representation and propose a novel CNN architecture called densely connected
multidilated DenseNet (D3Net). D3Net involves a novel multidilated convolution
that has different dilation factors in a single layer to model different
resolutions simultaneously. By combining the multidilated convolution with the
DenseNet architecture, D3Net incorporates multiresolution learning with an
exponentially growing receptive field in almost all layers, while avoiding the
aliasing problem that occurs when we naively incorporate the dilated
convolution in DenseNet. Experiments on the image semantic segmentation task
using Cityscapes and the audio source separation task using MUSDB18 show that
the proposed method has superior performance over state-of-the-art methods.
- Abstract(参考訳): 高分解能密度予測を含むタスクは、大きな入力領域における局所パターンと大域パターンの両方のモデリングを必要とする。
局所的構造と大域的構造はしばしば互いに依存しており、それらの同時モデリングは重要であるが、多くの畳み込みニューラルネットワーク(CNN)ベースのアプローチは、異なる解像度で表現を交換する。
本稿では,多分解能表現の高密度同時モデリングの重要性を主張し,高密度接続型DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは、異なる解像度を同時にモデル化するために単一の層に異なる拡張因子を持つ新しい多重化畳み込みを含む。
多重化畳み込みとDenseNetアーキテクチャを組み合わせることで、DenseNetに拡張畳み込みを鼻で組み込む際に発生するエイリアス問題を回避するとともに、D3Netはほとんど全ての層で指数関数的に増大する受容場にマルチレゾリューション学習を組み込む。
Cityscapes を用いた画像セマンティックセグメンテーションタスクと MUSDB18 を用いた音源分離タスクの実験により,提案手法は最先端手法よりも優れた性能を示した。
関連論文リスト
- One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - Self-Parameterization Based Multi-Resolution Mesh Convolution Networks [0.0]
本稿では,メッシュ畳み込みニューラルネットワークを3次元メッシュ密度予測のために設計する際の課題について述べる。
まず、高分解能入力データから直接多分解能メッシュピラミッドを構築する。
第二に、マルチ解像度畳み込みネットワークにおける高分解能表現を維持し、マルチスケールの融合を可能にする。
論文 参考訳(メタデータ) (2024-08-25T08:11:22Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Improved distinct bone segmentation in upper-body CT through
multi-resolution networks [0.39583175274885335]
上半身CTと異なる骨分画では、大きな視野と計算的な3Dアーキテクチャが必要とされる。
これにより、空間的コンテキストの欠如により、細部や局所的な誤差を欠いた低解像度な結果が得られる。
本稿では,異なる解像度で動作する複数の3次元U-Netを組み合わせたエンドツーエンドのトレーニング可能なセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T14:46:16Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - D3Net: Densely connected multidilated DenseNet for music source
separation [25.75557472306157]
音源分離は、音声信号の長期依存をモデル化するための大きな入力フィールドを含む。
従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、シーケンシャルにダウンサンプリングされた特徴マップや拡張畳み込みを使用した大規模な入力フィールドモデリングに対処する。
密結合拡張DenseNet(D3Net)と呼ばれる新しいCNNアーキテクチャを提案する。
D3Netは6.01dBの平均信号対歪み比(SDR)で最先端の性能を達成する。
論文 参考訳(メタデータ) (2020-10-05T01:03:08Z) - HITNet: Hierarchical Iterative Tile Refinement Network for Real-time
Stereo Matching [18.801346154045138]
HITNetはリアルタイムステレオマッチングのための新しいニューラルネットワークアーキテクチャである。
私たちのアーキテクチャは本質的にマルチレゾリューションであり、異なるレベルにわたる情報の伝播を可能にします。
執筆時点では、HITNetは2つのビューステレオのためにETH3Dウェブサイトで公開されたすべてのメトリクスで1位から3位にランクインしている。
論文 参考訳(メタデータ) (2020-07-23T17:11:48Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。