論文の概要: Unwarping Screen Content Images via Structure-texture Enhancement Network and Transformation Self-estimation
- arxiv url: http://arxiv.org/abs/2504.15108v1
- Date: Mon, 21 Apr 2025 13:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 16:22:56.797504
- Title: Unwarping Screen Content Images via Structure-texture Enhancement Network and Transformation Self-estimation
- Title(参考訳): 構造テクスチャ強化ネットワークと変換自己推定による画面コンテンツ画像のアンウォープ
- Authors: Zhenzhen Xiao, Heng Liu, Bingwen Hu,
- Abstract要約: 画面コンテンツ画像(SCI)に対する変換自己推定を用いた構造テクスチャ拡張ネットワーク(STEN)を提案する。
STENはB-スプラインの暗黙的ニューラル表現モジュールと変換誤差推定と自己補正アルゴリズムを統合している。
パブリックなSCIデータセットの実験は、我々のアプローチが最先端の手法を大きく上回っていることを示している。
- 参考スコア(独自算出の注目度): 2.404130767806698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While existing implicit neural network-based image unwarping methods perform well on natural images, they struggle to handle screen content images (SCIs), which often contain large geometric distortions, text, symbols, and sharp edges. To address this, we propose a structure-texture enhancement network (STEN) with transformation self-estimation for SCI warping. STEN integrates a B-spline implicit neural representation module and a transformation error estimation and self-correction algorithm. It comprises two branches: the structure estimation branch (SEB), which enhances local aggregation and global dependency modeling, and the texture estimation branch (TEB), which improves texture detail synthesis using B-spline implicit neural representation. Additionally, the transformation self-estimation module autonomously estimates the transformation error and corrects the coordinate transformation matrix, effectively handling real-world image distortions. Extensive experiments on public SCI datasets demonstrate that our approach significantly outperforms state-of-the-art methods. Comparisons on well-known natural image datasets also show the potential of our approach for natural image distortion.
- Abstract(参考訳): 既存の暗黙的なニューラルネットワークベースのイメージアンウォーピング手法は、自然画像ではうまく機能するが、大きな幾何学的歪み、テキスト、シンボル、シャープエッジを含むスクリーンコンテンツイメージ(SCI)を扱うのに苦労する。
そこで本研究では,SCIワープのための変換自己推定を用いた構造テクスチャ拡張ネットワーク(STEN)を提案する。
STENはB-スプラインの暗黙的ニューラル表現モジュールと変換誤差推定と自己補正アルゴリズムを統合している。
局所集約とグローバル依存性モデリングを強化する構造推定枝(SEB)と、B-スプライン暗黙的神経表現を用いたテクスチャ詳細合成を改善するテクスチャ推定枝(TEB)の2つの枝から構成される。
さらに、変換自己推定モジュールは、変換誤差を自律的に推定し、座標変換行列を補正し、実世界の画像歪みを効果的に処理する。
公開SCIデータセットに対する大規模な実験は、我々のアプローチが最先端の手法を大幅に上回っていることを示している。
良く知られた自然画像データセットの比較も、自然画像歪みに対する我々のアプローチの可能性を示している。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Robust Training Using Natural Transformation [19.455666609149567]
画像分類アルゴリズムのロバスト性を改善するための逆学習手法であるNaTraを提案する。
クラス識別とは無関係な入力画像の属性をターゲティングし、それらの属性を操作して実世界の自然変換を模倣します。
本手法の有効性を,よく訓練されたGANから導かれる非絡み合った潜在表現を用いて実証する。
論文 参考訳(メタデータ) (2021-05-10T01:56:03Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。