論文の概要: MxT: Mamba x Transformer for Image Inpainting
- arxiv url: http://arxiv.org/abs/2407.16126v3
- Date: Thu, 15 Aug 2024 21:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:49:17.956662
- Title: MxT: Mamba x Transformer for Image Inpainting
- Title(参考訳): MxT:Mamba x Transformer for Image Inpainting
- Authors: Shuang Chen, Amir Atapour-Abarghouei, Haozheng Zhang, Hubert P. H. Shum,
- Abstract要約: Image Inpaintingは、セマンティック・コヒーレントなコンテンツで画像の欠落した領域や破損した領域を復元することを目的としている。
本稿では,Mambaと変換器を組み合わせたHybrid Module (HM) を相乗的に構成したMxTを提案する。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
- 参考スコア(独自算出の注目度): 11.447968918063335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting, or image completion, is a crucial task in computer vision that aims to restore missing or damaged regions of images with semantically coherent content. This technique requires a precise balance of local texture replication and global contextual understanding to ensure the restored image integrates seamlessly with its surroundings. Traditional methods using Convolutional Neural Networks (CNNs) are effective at capturing local patterns but often struggle with broader contextual relationships due to the limited receptive fields. Recent advancements have incorporated transformers, leveraging their ability to understand global interactions. However, these methods face computational inefficiencies and struggle to maintain fine-grained details. To overcome these challenges, we introduce MxT composed of the proposed Hybrid Module (HM), which combines Mamba with the transformer in a synergistic manner. Mamba is adept at efficiently processing long sequences with linear computational costs, making it an ideal complement to the transformer for handling long-scale data interactions. Our HM facilitates dual-level interaction learning at both pixel and patch levels, greatly enhancing the model to reconstruct images with high quality and contextual accuracy. We evaluate MxT on the widely-used CelebA-HQ and Places2-standard datasets, where it consistently outperformed existing state-of-the-art methods. The code will be released: {\url{https://github.com/ChrisChen1023/MxT}}.
- Abstract(参考訳): 画像インペインティング(英: Image inpainting)または画像補完(英: Image completion)は、セマンティック・コヒーレントなコンテンツを用いて、画像の欠落または損傷領域を復元することを目的としたコンピュータビジョンにおける重要なタスクである。
この技術は、復元された画像が周囲とシームレスに統合されるように、局所的なテクスチャ複製とグローバルな文脈理解の正確なバランスを必要とする。
畳み込みニューラルネットワーク(CNN)を用いた従来の手法は、局所的なパターンを捉えるのに有効であるが、受容領域が限られているため、より広い文脈の関係に苦慮することが多い。
近年の進歩はトランスフォーマーを取り入れ、グローバルな相互作用を理解する能力を活用している。
しかし、これらの手法は計算の非効率さに直面し、細かな詳細を維持するのに苦労する。
これらの課題を克服するために,Mamba と変換器を相乗的に組み合わせたHybrid Module (HM) を用いた MxT を提案する。
Mambaは、線形計算コストで効率よく長いシーケンスを処理できるので、大規模なデータインタラクションを扱うための変換器の理想的な補完となる。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
我々は、広く使われているCelebA-HQとPlaces2-standardデータセット上でMxTを評価し、既存の最先端手法を一貫して上回りました。
コードは次のようになる。 {\url{https://github.com/ChrisChen1023/MxT}}。
関連論文リスト
- A Lightweight and Effective Image Tampering Localization Network with Vision Mamba [5.369780585789917]
現在の画像改ざん手法は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに依存している。
視覚的マンバ(ForMa)をベースとした,視覚障害者の視覚的触覚ローカライゼーションのための軽量かつ効果的なフォレストネットワークを提案する。
論文 参考訳(メタデータ) (2025-02-14T06:35:44Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文 参考訳(メタデータ) (2025-01-23T03:34:14Z) - DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation [4.391439322050918]
拡散モデルのための新しい状態空間アーキテクチャを提案する。
入力画像の局所的特徴に対する帰納バイアスを高めるために,空間情報と周波数情報を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:59:17Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement [7.443057703389351]
水中画像強調(UIE)は海洋調査や探査に重要であるが、複雑な色歪みと激しいぼやけによって妨げられている。
近年のディープラーニングに基づく手法は目覚ましい成果を上げているが、これらの手法は高い計算コストと不十分なグローバルモデリングに苦慮している。
我々は,ステートスペースモデル(SSM)を活用して,効率的なグローバル依存性モデリングを実現することにより,これらの課題を克服するために設計された新しいアーキテクチャであるPixMambaを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:34:38Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。