論文の概要: Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision
- arxiv url: http://arxiv.org/abs/2501.13353v1
- Date: Thu, 23 Jan 2025 03:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:15.772903
- Title: Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision
- Title(参考訳): コントラスト:低レベルビジョンのためのトランスフォーマーと状態空間モデルのハイブリッドアーキテクチャ
- Authors: Aman Urumbekov, Zheng Chen,
- Abstract要約: textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
- 参考スコア(独自算出の注目度): 3.574664325523221
- License:
- Abstract: Transformers have become increasingly popular for image super-resolution (SR) tasks due to their strong global context modeling capabilities. However, their quadratic computational complexity necessitates the use of window-based attention mechanisms, which restricts the receptive field and limits effective context expansion. Recently, the Mamba architecture has emerged as a promising alternative with linear computational complexity, allowing it to avoid window mechanisms and maintain a large receptive field. Nevertheless, Mamba faces challenges in handling long-context dependencies when high pixel-level precision is required, as in SR tasks. This is due to its hidden state mechanism, which can compress and store a substantial amount of context but only in an approximate manner, leading to inaccuracies that transformers do not suffer from. In this paper, we propose \textbf{Contrast}, a hybrid SR model that combines \textbf{Con}volutional, \textbf{Tra}nsformer, and \textbf{St}ate Space components, effectively blending the strengths of transformers and Mamba to address their individual limitations. By integrating transformer and state space mechanisms, \textbf{Contrast} compensates for the shortcomings of each approach, enhancing both global context modeling and pixel-level accuracy. We demonstrate that combining these two architectures allows us to mitigate the problems inherent in each, resulting in improved performance on image super-resolution tasks.
- Abstract(参考訳): トランスフォーマーは、強力なグローバルコンテキストモデリング機能により、画像超解像(SR)タスクでますます人気が高まっている。
しかし、それらの二次計算複雑性は、受容場を制限し、効果的な文脈展開を制限するウィンドウベースの注意機構の使用を必要とする。
近年、Mambaアーキテクチャは線形計算複雑性の代替として期待されているため、ウィンドウ機構を回避し、大きな受容場を維持することができる。
それでもMambaは、SRタスクのように高いピクセルレベルの精度を必要とする場合、長いコンテキスト依存を扱う際の課題に直面している。
これは、かなりの量のコンテキストを圧縮して保存できるが、近似的な方法でしか保存できない隠れ状態機構のためであり、トランスフォーマーが苦しめられない不正確な結果となる。
本稿では, 変換器とMambaの強度を効果的にブレンドして, 個々の制約に対処するハイブリッドSRモデルである \textbf{Con}volutional, \textbf{Tra}nsformer と \textbf{St}ate Space コンポーネントを提案する。
変換器と状態空間機構を統合することで,各アプローチの欠点を補償し,グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
これら2つのアーキテクチャを組み合わせることで,それぞれに固有の問題を緩和し,画像超解像タスクの性能を向上させることが実証された。
関連論文リスト
- Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation [0.0]
ビジョントランスフォーマーとU-Netアーキテクチャは拡散モデルの実装において広く採用されている。
固定サイズ再利用可能なトランスブロックをコア構造として利用するアーキテクチャを提案する。
私たちのアーキテクチャの特徴は、複雑さの低い、トークンのない設計、位置埋め込みの欠如、均一性、スケーラビリティです。
論文 参考訳(メタデータ) (2024-11-09T08:58:57Z) - MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - MxT: Mamba x Transformer for Image Inpainting [11.447968918063335]
Image Inpaintingは、セマンティック・コヒーレントなコンテンツで画像の欠落した領域や破損した領域を復元することを目的としている。
本稿では,Mambaと変換器を組み合わせたHybrid Module (HM) を相乗的に構成したMxTを提案する。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
論文 参考訳(メタデータ) (2024-07-23T02:21:11Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。