論文の概要: Enhancing Image Restoration Transformer via Adaptive Translation Equivariance
- arxiv url: http://arxiv.org/abs/2506.18520v1
- Date: Mon, 23 Jun 2025 11:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.951598
- Title: Enhancing Image Restoration Transformer via Adaptive Translation Equivariance
- Title(参考訳): 適応的翻訳等価性による画像復元変換器の強化
- Authors: JiaKui Hu, Zhengjian Yao, Lujia Jin, Hangzhou He, Yanye Lu,
- Abstract要約: 本研究では,各問合せのキー値対を効率よく選択する適応的スライディングインデックス機構を開発し,これをグローバルに集約したキー値対と並列に一般化する。
その結果、有効性、訓練収束性、一般化の点において、その優位性を強調した。
- 参考スコア(独自算出の注目度): 4.302970926810013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translation equivariance is a fundamental inductive bias in image restoration, ensuring that translated inputs produce translated outputs. Attention mechanisms in modern restoration transformers undermine this property, adversely impacting both training convergence and generalization. To alleviate this issue, we propose two key strategies for incorporating translation equivariance: slide indexing and component stacking. Slide indexing maintains operator responses at fixed positions, with sliding window attention being a notable example, while component stacking enables the arrangement of translation-equivariant operators in parallel or sequentially, thereby building complex architectures while preserving translation equivariance. However, these strategies still create a dilemma in model design between the high computational cost of self-attention and the fixed receptive field associated with sliding window attention. To address this, we develop an adaptive sliding indexing mechanism to efficiently select key-value pairs for each query, which are then concatenated in parallel with globally aggregated key-value pairs. The designed network, called the Translation Equivariance Adaptive Transformer (TEAFormer), is assessed across a variety of image restoration tasks. The results highlight its superiority in terms of effectiveness, training convergence, and generalization.
- Abstract(参考訳): 変換等価性は画像復元における基本的な帰納バイアスであり、変換された入力が変換された出力を生成することを保証する。
現代の修復変圧器の注意機構は、この特性を損なうものであり、トレーニング収束と一般化の両方に悪影響を及ぼす。
この問題を軽減するために,スライドインデクシングとコンポーネントの積み重ねという,翻訳等価性を組み込むための2つの重要な戦略を提案する。
スライディング・インデクシングは固定位置での操作者応答を維持し、スライディング・ウインドウ・アテンションは顕著な例である一方、コンポーネント・スタッキングは並列または逐次的に変換等価な演算子の配置を可能にし、変換等価性を保ちながら複雑なアーキテクチャを構築する。
しかしながら、これらの戦略は、高い自己注意の計算コストと、滑り窓の注意に関連する固定受容場の間のモデル設計においてジレンマを生んでいる。
そこで本研究では,各クエリのキー値対を効率よく選択する適応的スライディングインデックス機構を開発し,その並列化をグローバルに集約したキー値対と組み合わせる。
TEAFormer (Translation Equivariance Adaptive Transformer) と呼ばれる設計ネットワークは、様々な画像復元タスクで評価される。
その結果、有効性、訓練収束性、一般化の点において、その優位性を強調した。
関連論文リスト
- seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models [1.474723404975345]
本稿では,協調埋め込み型予測アーキテクチャにアーキテクチャバイアスを導入する世界モデリングフレームワークSeq-JEPAを提案する。
Seq-JEPA は2つのアーキテクチャ的に分離された表現を同時に学習する。
行動間の経路統合や眼球運動間の予測学習など、本質的に一連の観察を必要とするタスクに優れています。
論文 参考訳(メタデータ) (2025-05-06T04:39:11Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Equivariant Spatio-Temporal Self-Supervision for LiDAR Object Detection [37.142470149311904]
本研究では,空間的および時間的拡張を両立させることにより,時間的同変学習の枠組みを提案する。
既存の等変および不変のアプローチを多くの設定で上回る3次元物体検出のための事前学習法を示す。
論文 参考訳(メタデータ) (2024-04-17T20:41:49Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - Deep Neural Networks with Efficient Guaranteed Invariances [77.99182201815763]
我々は、性能改善の問題、特にディープニューラルネットワークのサンプル複雑性に対処する。
群同変畳み込みは同変表現を得るための一般的なアプローチである。
本稿では,各ストリームが異なる変換に不変なマルチストリームアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-02T20:44:45Z) - Empowering Networks With Scale and Rotation Equivariance Using A
Similarity Convolution [16.853711292804476]
翻訳, 回転, スケーリングに関して, 同時同値のCNNを実現する手法を考案する。
提案手法は畳み込みのような動作を定義し,提案したスケーラブルなフーリエ・アーガン表現に基づいて等価性を保証する。
画像分類作業におけるアプローチの有効性を検証し、その頑健さと、スケールされた入力と回転した入力の両方に対する一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-01T08:43:05Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Translational Equivariance in Kernelizable Attention [3.236198583140341]
本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。
実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
論文 参考訳(メタデータ) (2021-02-15T17:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。