論文の概要: Sharing Key Semantics in Transformer Makes Efficient Image Restoration
- arxiv url: http://arxiv.org/abs/2405.20008v1
- Date: Thu, 30 May 2024 12:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:28:22.597659
- Title: Sharing Key Semantics in Transformer Makes Efficient Image Restoration
- Title(参考訳): 変圧器におけるキーセマンティクスの共有による画像復元
- Authors: Bin Ren, Yawei Li, Jingyun Liang, Rakesh Ranjan, Mengyuan Liu, Rita Cucchiara, Luc Van Gool, Ming-Hsuan Yang, Nicu Sebe,
- Abstract要約: 視覚変換器(ViT)の基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向がある。
本稿では,Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することで,画像復元の性能を向上させることを提案する。
- 参考スコア(独自算出の注目度): 148.22790334216117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Restoration (IR), a classic low-level vision task, has witnessed significant advancements through deep models that effectively model global information. Notably, the Vision Transformers (ViTs) emergence has further propelled these advancements. When computing, the self-attention mechanism, a cornerstone of ViTs, tends to encompass all global cues, even those from semantically unrelated objects or regions. This inclusivity introduces computational inefficiencies, particularly noticeable with high input resolution, as it requires processing irrelevant information, thereby impeding efficiency. Additionally, for IR, it is commonly noted that small segments of a degraded image, particularly those closely aligned semantically, provide particularly relevant information to aid in the restoration process, as they contribute essential contextual cues crucial for accurate reconstruction. To address these challenges, we propose boosting IR's performance by sharing the key semantics via Transformer for IR (i.e., SemanIR) in this paper. Specifically, SemanIR initially constructs a sparse yet comprehensive key-semantic dictionary within each transformer stage by establishing essential semantic connections for every degraded patch. Subsequently, this dictionary is shared across all subsequent transformer blocks within the same stage. This strategy optimizes attention calculation within each block by focusing exclusively on semantically related components stored in the key-semantic dictionary. As a result, attention calculation achieves linear computational complexity within each window. Extensive experiments across 6 IR tasks confirm the proposed SemanIR's state-of-the-art performance, quantitatively and qualitatively showcasing advancements.
- Abstract(参考訳): 古典的な低レベル視覚タスクである画像復元(IR)は、グローバル情報を効果的にモデル化するディープモデルを通じて、大幅な進歩をみせた。
視覚変換器(ViT)の出現により、これらの進歩はさらに加速した。
計算において、ViTの基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向にある。
この傾きは、特に高い入力解像度で計算の非効率性を導入し、無関係な情報を処理する必要があるため、効率を損なう。
さらに、IRでは、劣化した画像の小さな部分、特にセマンティックに密に整合した部分)が、正確な復元に不可欠な重要な文脈的手がかりに寄与するため、回復プロセスを支援するために特に関連性のある情報を提供するのが一般的である。
これらの課題に対処するため、本論文では、Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することにより、IRの性能を向上させることを提案する。
具体的には、SemanIRは当初、分解されたパッチごとに重要なセマンティック接続を確立することで、各トランスフォーマーステージ内でスパースだが包括的なキー・セマンティック辞書を構築している。
その後、この辞書は同じステージ内の全ての変圧器ブロック間で共有される。
この戦略は、キー・セマンティック辞書に格納された意味的関連コンポーネントにのみ焦点をあてて、各ブロック内の注意計算を最適化する。
その結果、注意計算は各ウィンドウ内で線形計算複雑性を実現する。
6つのIRタスクにわたる広範囲な実験は、提案されたセマン赤外線の最先端性能を定量的かつ質的に証明している。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Large-scale Global Low-rank Optimization for Computational Compressed
Imaging [8.594666859332124]
本稿では,グローバルな自己相似性と高効率な大規模再構成を実現するグローバル低ランク(GLR)最適化手法を提案する。
深層学習における自己認識機構に触発されたGLRは、従来の一様選択の代わりに特徴検出によって画像パッチを抽出する。
時間・周波数・スペクトル次元におけるGLRの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2023-01-08T14:12:51Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。