論文の概要: DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches
- arxiv url: http://arxiv.org/abs/2305.03919v2
- Date: Wed, 28 Feb 2024 10:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:09:31.655030
- Title: DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches
- Title(参考訳): DBAT:クロスリゾリューションパッチを用いた材料セグメンテーション用動的後方アテンション変圧器
- Authors: Yuwen Heng, Srinandan Dasmahapatra, Hansung Kim
- Abstract要約: クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
- 参考スコア(独自算出の注目度): 8.812837829361923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of dense material segmentation is to identify the material
categories for every image pixel. Recent studies adopt image patches to extract
material features. Although the trained networks can improve the segmentation
performance, their methods choose a fixed patch resolution which fails to take
into account the variation in pixel area covered by each material. In this
paper, we propose the Dynamic Backward Attention Transformer (DBAT) to
aggregate cross-resolution features. The DBAT takes cropped image patches as
input and gradually increases the patch resolution by merging adjacent patches
at each transformer stage, instead of fixing the patch resolution during
training. We explicitly gather the intermediate features extracted from
cross-resolution patches and merge them dynamically with predicted attention
masks. Experiments show that our DBAT achieves an accuracy of 86.85%, which is
the best performance among state-of-the-art real-time models. Like other
successful deep learning solutions with complex architectures, the DBAT also
suffers from lack of interpretability. To address this problem, this paper
examines the properties that the DBAT makes use of. By analysing the
cross-resolution features and the attention weights, this paper interprets how
the DBAT learns from image patches. We further align features to semantic
labels, performing network dissection, to infer that the proposed model can
extract material-related features better than other methods. We show that the
DBAT model is more robust to network initialisation, and yields fewer variable
predictions compared to other models. The project code is available at
https://github.com/heng-yuwen/Dynamic-Backward-Attention-Transformer.
- Abstract(参考訳): 濃密な材料セグメンテーションの目的は、各画像画素の材料カテゴリを特定することである。
近年の研究では、画像パッチを用いて材料の特徴を抽出している。
訓練されたネットワークは、セグメンテーション性能を向上させることができるが、それぞれの素材がカバーする画素領域の変動を考慮に入れない固定パッチ解像度を選択する。
本稿では,クロスレゾリューション特徴を集約する動的後方注意変換器(DBAT)を提案する。
dbatは、切り抜いたイメージパッチを入力として入力し、トレーニング中にパッチの解像度を固定するのではなく、各トランスフォーマーステージに隣接するパッチをマージすることで、パッチの解像度を徐々に向上させる。
クロスレゾリューションパッチから抽出した中間機能を明示的に収集し,予測したアテンションマスクと動的にマージする。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中でも最高の性能を示している。
複雑なアーキテクチャを持つ他の成功したディープラーニングソリューションと同様に、DBATも解釈可能性の欠如に悩まされている。
この問題に対処するために,本稿ではDBATが利用する特性について検討する。
クロスレゾリューションの特徴と注意重みを解析することにより,DBATが画像パッチからどのように学習するかを解釈する。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
我々はDBATモデルがネットワーク初期化に対してより堅牢であることを示し、他のモデルと比較して変数予測が少ないことを示す。
プロジェクトのコードはhttps://github.com/heng-yuwen/Dynamic-Backward-Attention-Transformerで公開されている。
関連論文リスト
- Adaptive Patching for High-resolution Image Segmentation with Transformers [9.525013089622183]
注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。
我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
論文 参考訳(メタデータ) (2024-04-15T12:06:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - ImageNet-Patch: A Dataset for Benchmarking Machine Learning Robustness
against Adversarial Patches [20.030925907337075]
ImageNet-Patchは、機械学習モデルを敵のパッチに対してベンチマークするためのデータセットである。
パッチのセットで構成され、異なるモデルにまたがる一般化に最適化され、事前処理後にImageNetデータに容易に適用できる。
本稿では,127モデルに対する計算パッチの有効性を検証することで,このデータセットの有用性を示す。
論文 参考訳(メタデータ) (2022-03-07T17:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。