論文の概要: Global Aggregation then Local Distribution for Scene Parsing
- arxiv url: http://arxiv.org/abs/2107.13154v1
- Date: Wed, 28 Jul 2021 03:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 14:00:25.736270
- Title: Global Aggregation then Local Distribution for Scene Parsing
- Title(参考訳): シーン解析のためのグローバルアグリゲーションと局所分布
- Authors: Xiangtai Li, Li Zhang, Guangliang Cheng, Kuiyuan Yang, Yunhai Tong,
Xiatian Zhu, Tao Xiang
- Abstract要約: 提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
- 参考スコア(独自算出の注目度): 99.1095068574454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modelling long-range contextual relationships is critical for pixel-wise
prediction tasks such as semantic segmentation. However, convolutional neural
networks (CNNs) are inherently limited to model such dependencies due to the
naive structure in its building modules (\eg, local convolution kernel). While
recent global aggregation methods are beneficial for long-range structure
information modelling, they would oversmooth and bring noise to the regions
containing fine details (\eg,~boundaries and small objects), which are very
much cared for the semantic segmentation task. To alleviate this problem, we
propose to explore the local context for making the aggregated long-range
relationship being distributed more accurately in local regions. In particular,
we design a novel local distribution module which models the affinity map
between global and local relationship for each pixel adaptively. Integrating
existing global aggregation modules, we show that our approach can be
modularized as an end-to-end trainable block and easily plugged into existing
semantic segmentation networks, giving rise to the \emph{GALD} networks.
Despite its simplicity and versatility, our approach allows us to build new
state of the art on major semantic segmentation benchmarks including
Cityscapes, ADE20K, Pascal Context, Camvid and COCO-stuff. Code and trained
models are released at \url{https://github.com/lxtGH/GALD-DGCNet} to foster
further research.
- Abstract(参考訳): 長距離コンテキスト関係のモデル化は、セマンティックセグメンテーションのような画素単位の予測タスクにおいて重要である。
しかしながら、畳み込みニューラルネットワーク(CNN)は本質的に、構築モジュール(ローカル畳み込みカーネル)の単純構造のため、そのような依存関係をモデル化することに制限されている。
最近のグローバルアグリゲーション手法は、長距離構造情報モデリングに有用であるが、細部(\eg,~boundaries and small objects)を含む領域に過大なノイズをもたらし、セマンティクスセグメンテーションタスクに非常に注意を払っている。
そこで本研究では,この問題を解決するために,集約された長距離関係をより正確にローカル領域に分散させる手法を提案する。
特に,各画素に対する大域的および局所的関係の親和性マップを適応的にモデル化する新しい局所分布モジュールを設計する。
既存のグローバルアグリゲーションモジュールを統合することで,我々のアプローチはエンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続できることが示される。
その単純さと汎用性にもかかわらず、我々のアプローチはcityscapes、ade20k、pascal context、camvid、coco-stuffといった主要なセマンティックセグメンテーションベンチマークで新しい最先端を構築できる。
コードとトレーニングされたモデルは、さらなる研究を促進するために \url{https://github.com/lxtGH/GALD-DGCNet} でリリースされる。
関連論文リスト
- Learning Enriched Features via Selective State Spaces Model for Efficient Image Deblurring [0.0]
Image Deblurringは、高品質な画像を、それに対応するぼやけた画像から復元することを目的としている。
本稿では、選択状態空間モデルを利用して、リッチで正確な特徴を集約する効率的な画像デブロアリングネットワークを提案する。
実験により,提案手法は広く用いられているベンチマークにおいて,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-29T10:40:41Z) - A Global-Local Approximation Framework for Large-Scale Gaussian Process
Modeling [0.0]
本稿では,大規模ガウス過程(GP)モデリングのための新しいフレームワークを提案する。
近似構築にグローバルなアプローチを併用する。
TwinGPと呼ぶ我々のフレームワークの性能は、最先端のGPモデリング手法と同等かそれ以上である。
論文 参考訳(メタデータ) (2023-05-17T12:19:59Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z) - Global and Local Features through Gaussian Mixture Models on Image
Semantic Segmentation [0.38073142980732994]
本稿では,前者をサポートするグローバル表現を抽出しながら特徴表現の内部構造を提案する。
トレーニング中、データからガウス混合モデルを予測し、スキップ接続と復号ステージにマージすることで、誤った帰納バイアスを回避する。
この結果から,クラスタリングの動作を学習表現(言語とローカル)と組み合わせることで,セマンティックセマンティックセマンティクスを向上できることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T10:10:49Z) - Contextual Attention Network: Transformer Meets U-Net [0.0]
畳み込みニューラルネットワーク(CNN)はデファクトスタンダードとなり、医療画像セグメンテーションにおいて大きな成功を収めた。
しかし、CNNベースのメソッドは、長距離依存関係とグローバルコンテキスト接続を構築するのに失敗する。
最近の論文では、医療画像分割タスクにTransformerの変種を活用している。
論文 参考訳(メタデータ) (2022-03-02T21:10:24Z) - PRA-Net: Point Relation-Aware Network for 3D Point Cloud Analysis [56.91758845045371]
我々はポイント関係認識ネットワーク(PRA-Net)という新しいフレームワークを提案する。
領域内構造学習(ISL)モジュールと領域間関係学習(IRL)モジュールで構成されている。
形状分類,キーポイント推定,部分セグメンテーションを含む複数の3次元ベンチマーク実験により,PRA-Netの有効性と性能が検証された。
論文 参考訳(メタデータ) (2021-12-09T13:24:43Z) - An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot
Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。
ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。
グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文 参考訳(メタデータ) (2021-11-03T11:13:13Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。