論文の概要: Morpho-Aware Global Attention for Image Matting
- arxiv url: http://arxiv.org/abs/2411.10251v1
- Date: Fri, 15 Nov 2024 15:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:06.559305
- Title: Morpho-Aware Global Attention for Image Matting
- Title(参考訳): 画像マッチングのためのMorpho-Awareグローバルアテンション
- Authors: Jingru Yang, Chengzhi Cao, Chentianye Xu, Zhongwei Xie, Kaixiang Huang, Yang Zhou, Shengfeng He,
- Abstract要約: 視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は、画像マッチングにおいて固有の課題に直面している。
本稿では,微細構造の形態を効果的に把握するための新しいMorpho-Aware Global Attention(MAGA)機構を提案する。
- 参考スコア(独自算出の注目度): 25.76074366858318
- License:
- Abstract: Vision Transformers (ViTs) and Convolutional Neural Networks (CNNs) face inherent challenges in image matting, particularly in preserving fine structural details. ViTs, with their global receptive field enabled by the self-attention mechanism, often lose local details such as hair strands. Conversely, CNNs, constrained by their local receptive field, rely on deeper layers to approximate global context but struggle to retain fine structures at greater depths. To overcome these limitations, we propose a novel Morpho-Aware Global Attention (MAGA) mechanism, designed to effectively capture the morphology of fine structures. MAGA employs Tetris-like convolutional patterns to align the local shapes of fine structures, ensuring optimal local correspondence while maintaining sensitivity to morphological details. The extracted local morphology information is used as query embeddings, which are projected onto global key embeddings to emphasize local details in a broader context. Subsequently, by projecting onto value embeddings, MAGA seamlessly integrates these emphasized morphological details into a unified global structure. This approach enables MAGA to simultaneously focus on local morphology and unify these details into a coherent whole, effectively preserving fine structures. Extensive experiments show that our MAGA-based ViT achieves significant performance gains, outperforming state-of-the-art methods across two benchmarks with average improvements of 4.3% in SAD and 39.5% in MSE.
- Abstract(参考訳): 視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は、特に微細な構造的詳細を保存する際に、画像マッチングにおいて固有の課題に直面している。
ViTは自己保持機構によってグローバルな受容野が実現されているため、毛細管のような局所的な細部が失われることが多い。
逆に、CNNは、その局所受容場によって制約され、グローバルコンテキストを近似するためにより深い層に依存しているが、より深い深さで微細な構造を維持するのに苦労している。
これらの制約を克服するため,我々は微細構造の形態を効果的に把握する新しいMorpho-Aware Global Attention(MAGA)機構を提案する。
MAGAはテトリス様の畳み込みパターンを用いて微細構造の局所的な形状を整列し、形態的細部への感受性を維持しながら最適な局所対応を確保する。
抽出した局所形態情報はクエリ埋め込みとして使用され、グローバルなキー埋め込みに投影され、より広い文脈で局所的な詳細を強調する。
その後、価値埋め込みに投影することで、MAGAはこれらの強調された形態的詳細を統一されたグローバル構造にシームレスに統合する。
このアプローチにより、MAGAは局所形態学を同時に重視し、これらの詳細をコヒーレントな全体に統合し、効果的に微細な構造を保存することができる。
大規模な実験により、我々のMAGAベースのViTは2つのベンチマークにおいて、SADの4.3%、MSEの39.5%の平均的な改善により、最先端の手法よりも優れたパフォーマンスを実現していることが示された。
関連論文リスト
- Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。
このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文 参考訳(メタデータ) (2024-10-31T14:50:48Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Does resistance to style-transfer equal Global Shape Bias? Measuring
network sensitivity to global shape configuration [6.047146237332764]
モデル全体の形状バイアスを評価するための最新のベンチマークは、スタイル変換された画像のセットである。
スタイル伝達画像で訓練されたネットワークは、実際にスタイルを無視することを学ぶが、その形状バイアスは、主に局所的な詳細から生じる。
論文 参考訳(メタデータ) (2023-10-11T15:00:11Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。