Fugu-MT 論文翻訳(概要): Sharing Key Semantics in Transformer Makes Efficient Image Restoration

論文の概要: Sharing Key Semantics in Transformer Makes Efficient Image Restoration

arxiv url: http://arxiv.org/abs/2405.20008v1
Date: Thu, 30 May 2024 12:45:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 14:28:22.597659
Title: Sharing Key Semantics in Transformer Makes Efficient Image Restoration
Title（参考訳）: 変圧器におけるキーセマンティクスの共有による画像復元
Authors: Bin Ren, Yawei Li, Jingyun Liang, Rakesh Ranjan, Mengyuan Liu, Rita Cucchiara, Luc Van Gool, Ming-Hsuan Yang, Nicu Sebe,
Abstract要約: 視覚変換器(ViT)の基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向がある。本稿では,Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することで,画像復元の性能を向上させることを提案する。
参考スコア（独自算出の注目度）: 148.22790334216117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image Restoration (IR), a classic low-level vision task, has witnessed significant advancements through deep models that effectively model global information. Notably, the Vision Transformers (ViTs) emergence has further propelled these advancements. When computing, the self-attention mechanism, a cornerstone of ViTs, tends to encompass all global cues, even those from semantically unrelated objects or regions. This inclusivity introduces computational inefficiencies, particularly noticeable with high input resolution, as it requires processing irrelevant information, thereby impeding efficiency. Additionally, for IR, it is commonly noted that small segments of a degraded image, particularly those closely aligned semantically, provide particularly relevant information to aid in the restoration process, as they contribute essential contextual cues crucial for accurate reconstruction. To address these challenges, we propose boosting IR's performance by sharing the key semantics via Transformer for IR (i.e., SemanIR) in this paper. Specifically, SemanIR initially constructs a sparse yet comprehensive key-semantic dictionary within each transformer stage by establishing essential semantic connections for every degraded patch. Subsequently, this dictionary is shared across all subsequent transformer blocks within the same stage. This strategy optimizes attention calculation within each block by focusing exclusively on semantically related components stored in the key-semantic dictionary. As a result, attention calculation achieves linear computational complexity within each window. Extensive experiments across 6 IR tasks confirm the proposed SemanIR's state-of-the-art performance, quantitatively and qualitatively showcasing advancements.
Abstract（参考訳）: 古典的な低レベル視覚タスクである画像復元(IR)は、グローバル情報を効果的にモデル化するディープモデルを通じて、大幅な進歩をみせた。視覚変換器(ViT)の出現により、これらの進歩はさらに加速した。計算において、ViTの基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向にある。この傾きは、特に高い入力解像度で計算の非効率性を導入し、無関係な情報を処理する必要があるため、効率を損なう。さらに、IRでは、劣化した画像の小さな部分、特にセマンティックに密に整合した部分)が、正確な復元に不可欠な重要な文脈的手がかりに寄与するため、回復プロセスを支援するために特に関連性のある情報を提供するのが一般的である。これらの課題に対処するため、本論文では、Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することにより、IRの性能を向上させることを提案する。具体的には、SemanIRは当初、分解されたパッチごとに重要なセマンティック接続を確立することで、各トランスフォーマーステージ内でスパースだが包括的なキー・セマンティック辞書を構築している。その後、この辞書は同じステージ内の全ての変圧器ブロック間で共有される。この戦略は、キー・セマンティック辞書に格納された意味的関連コンポーネントにのみ焦点をあてて、各ブロック内の注意計算を最適化する。その結果、注意計算は各ウィンドウ内で線形計算複雑性を実現する。 6つのIRタスクにわたる広範囲な実験は、提案されたセマン赤外線の最先端性能を定量的かつ質的に証明している。

関連論文リスト

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。 ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。 HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文参考訳（メタデータ） (2025-03-15T05:13:26Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit [6.87425726793675]
Vision Transformer (ViT)はグローバルなモデリングに優れていますが、リソース制約のあるデバイスへのデプロイメントの課題に直面しています。本稿では,セマンティック・アウェア・クラスタリング・ビジョン・トランス (SAC-ViT) を提案する。
論文参考訳（メタデータ） (2025-02-27T02:24:22Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。構築した自己意識を近似するFibottention Architectureを提案する。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文参考訳（メタデータ） (2024-06-01T12:49:16Z)
Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文参考訳（メタデータ） (2024-01-31T05:20:29Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Large-scale Global Low-rank Optimization for Computational Compressed Imaging [8.594666859332124]
本稿では,グローバルな自己相似性と高効率な大規模再構成を実現するグローバル低ランク(GLR)最適化手法を提案する。深層学習における自己認識機構に触発されたGLRは、従来の一様選択の代わりに特徴検出によって画像パッチを抽出する。時間・周波数・スペクトル次元におけるGLRの有効性を実験的に実証した。
論文参考訳（メタデータ） (2023-01-08T14:12:51Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文参考訳（メタデータ） (2022-07-01T03:36:49Z)
Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文参考訳（メタデータ） (2021-05-23T12:44:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。