論文の概要: Context Attention Network for Skeleton Extraction
- arxiv url: http://arxiv.org/abs/2205.12066v1
- Date: Tue, 24 May 2022 13:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:16:41.886160
- Title: Context Attention Network for Skeleton Extraction
- Title(参考訳): 骨格抽出のための文脈注意ネットワーク
- Authors: Zixuan Huang, Yunfeng Wang, Zhiwen Chen, Xin Gao, Ruili Feng, Xiaobo
Li
- Abstract要約: UNet アーキテクチャにコンテキスト抽出モジュールを統合する Context Attention Network (CANet) と呼ばれる注意モデルを提案する。
また, 距離変換, 重み焦点損失などの新しい手法を用いて, 与えられたデータセットの良好な結果を得る。
モデルアンサンブルがなく,トレーニング画像の80%しか持たず,Pixel SkelNetOnコンペティションの最終フェーズで0.822F1スコア,0.8507F1スコアを達成した。
- 参考スコア(独自算出の注目度): 17.82456674262894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton extraction is a task focused on providing a simple representation of
an object by extracting the skeleton from the given binary or RGB image. In
recent years many attractive works in skeleton extraction have been made. But
as far as we know, there is little research on how to utilize the context
information in the binary shape of objects. In this paper, we propose an
attention-based model called Context Attention Network (CANet), which
integrates the context extraction module in a UNet architecture and can
effectively improve the ability of network to extract the skeleton pixels.
Meanwhile, we also use some novel techniques including distance transform,
weight focal loss to achieve good results on the given dataset. Finally,
without model ensemble and with only 80% of the training images, our method
achieves 0.822 F1 score during the development phase and 0.8507 F1 score during
the final phase of the Pixel SkelNetOn Competition, ranking 1st place on the
leaderboard.
- Abstract(参考訳): スケルトン抽出は、与えられたバイナリまたはRGB画像からスケルトンを抽出することで、オブジェクトの単純な表現を提供することに焦点を当てたタスクである。
近年、骨格抽出における魅力的な作品が数多く作成されている。
しかし、私たちが知る限り、オブジェクトのバイナリ形式におけるコンテキスト情報の使い方に関する研究はほとんどありません。
本稿では,コンテキスト・アテンション・ネットワーク(canet)と呼ばれる,unetアーキテクチャにおけるコンテキスト抽出モジュールを統合し,スケルトン画素を抽出するネットワークの性能を効果的に向上するアテンション・ベース・モデルを提案する。
また, 距離変換, 重み焦点損失などの新しい手法を用いて, 与えられたデータセットの良好な結果を得る。
最後に,Pixel SkelNetOnコンペティションの最終段階では,モデルアンサンブルがなく,トレーニング画像の80%しかなく,開発段階で0.822 F1スコア,0.8507 F1スコアを達成した。
関連論文リスト
- PairingNet: A Learning-based Pair-searching and -matching Network for
Image Fragments [6.694162736590122]
本稿では,難解な修復問題を解決するために,学習に基づくイメージフラグメントのペア探索とマッチング手法を提案する。
提案するネットワークは,ペア探索の精度に優れ,マッチングエラーを低減し,計算時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-14T07:43:53Z) - Progressive with Purpose: Guiding Progressive Inpainting DNNs through
Context and Structure [0.0]
本稿では,処理された画像の構造的・文脈的整合性を維持する新しい塗装ネットワークを提案する。
ガウスピラミッドとラプラシアピラミッドに触発されたこのネットワークのコアは、GLEと呼ばれる特徴抽出モジュールである。
ベンチマーク実験により, 提案手法は, 多くの最先端の塗装アルゴリズムに対して, 性能の向上を図っている。
論文 参考訳(メタデータ) (2022-09-21T02:15:02Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。