論文の概要: Rectification Reimagined: A Unified Mamba Model for Image Correction and Rectangling with Prompts
- arxiv url: http://arxiv.org/abs/2512.18718v1
- Date: Sun, 21 Dec 2025 12:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.470542
- Title: Rectification Reimagined: A Unified Mamba Model for Image Correction and Rectangling with Prompts
- Title(参考訳): 画像補正のための統一マンバモデルとプロンプトとの整合性
- Authors: Linwei Qiu, Gongzhe Li, Xiaozhe Zhang, Qinlin Sun, Fengying Xie,
- Abstract要約: 我々は、一貫した歪み補正の観点からこれらの実用的なタスクに対処する包括的アプローチUnified Rectification Framework(UniRect)を紹介する。
提案手法は,様々な種類のレンズをシミュレートすることにより,様々なタスク固有の逆問題を一般的な歪みモデルに組み込む。
我々のモデルは、他の最新手法と比較して最先端の性能を達成した。
- 参考スコア(独自算出の注目度): 7.136884388888679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image correction and rectangling are valuable tasks in practical photography systems such as smartphones. Recent remarkable advancements in deep learning have undeniably brought about substantial performance improvements in these fields. Nevertheless, existing methods mainly rely on task-specific architectures. This significantly restricts their generalization ability and effective application across a wide range of different tasks. In this paper, we introduce the Unified Rectification Framework (UniRect), a comprehensive approach that addresses these practical tasks from a consistent distortion rectification perspective. Our approach incorporates various task-specific inverse problems into a general distortion model by simulating different types of lenses. To handle diverse distortions, UniRect adopts one task-agnostic rectification framework with a dual-component structure: a {Deformation Module}, which utilizes a novel Residual Progressive Thin-Plate Spline (RP-TPS) model to address complex geometric deformations, and a subsequent Restoration Module, which employs Residual Mamba Blocks (RMBs) to counteract the degradation caused by the deformation process and enhance the fidelity of the output image. Moreover, a Sparse Mixture-of-Experts (SMoEs) structure is designed to circumvent heavy task competition in multi-task learning due to varying distortions. Extensive experiments demonstrate that our models have achieved state-of-the-art performance compared with other up-to-date methods.
- Abstract(参考訳): 画像修正と整形は、スマートフォンなどの実用写真システムにおいて重要な課題である。
近年のディープラーニングの顕著な進歩は、これらの分野で大きなパフォーマンス向上をもたらしたことは間違いない。
しかし、既存の手法は主にタスク固有のアーキテクチャに依存している。
これにより、様々なタスクにまたがる一般化能力と効果的な応用が大幅に制限される。
本稿では,一貫した歪み補正の観点から,これらの課題に対処する包括的アプローチであるUnified Rectification Framework(UniRect)を紹介する。
提案手法は,様々な種類のレンズをシミュレートすることにより,様々なタスク固有の逆問題を一般的な歪みモデルに組み込む。
多様な歪みに対処するため、UniRectでは、新しいResidual Progressive Thin-Plate Spline (RP-TPS)モデルを用いて複雑な変形に対処する {Deformation Module} と、Residual Mamba Blocks (RMBs) を用いて、変形プロセスによる劣化を防止し、出力画像の忠実性を高めるためのResidual Mamba Blocks (RMBs) という2つのタスク非依存の修正フレームワークを採用している。
さらに,多タスク学習における多目的競争を回避するため,SMOE(Sparse Mixture-of-Experts)構造を設計した。
大規模な実験により、我々のモデルは、他の最新手法と比較して最先端のパフォーマンスを達成できたことが実証された。
関連論文リスト
- MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models [60.110274007388135]
MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。
MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2025-05-06T20:03:47Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - Adaptive Blind All-in-One Image Restoration [15.726917603679716]
ブラインドオールインワン画像復元モデルは、未知の歪みで劣化した入力から高品質な画像を復元することを目的としている。
ABAIRは、単純で効果的な適応型ブラインドオールインワン修復モデルであり、複数の劣化を処理し、目に見えない歪みをうまく一般化する。
提案モデルは,5段と3段のIR構成における最先端性能を上回るだけでなく,目に見えない劣化や複合歪みに対して優れた一般化を示す。
論文 参考訳(メタデータ) (2024-11-27T14:58:08Z) - A Unified Deep Learning Framework for Motion Correction in Medical Imaging [6.727558990042319]
医用画像における多様な動きを補正するための統合運動補正フレームワークUniMoを紹介する。
UniMoは,1)大域的運動補正のための同変ニューラルネットワーク,2)局所変形のためのエンコーダ・デコーダネットワークをトレーニングするために,統一損失関数の交互最適化方式を採用している。
胎児磁気共鳴画像における運動追跡のためのUniMoの訓練および試験を行った。
論文 参考訳(メタデータ) (2024-09-21T17:36:11Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Stochastic Planner-Actor-Critic for Unsupervised Deformable Image
Registration [33.72954116727303]
本稿では,大きく変形する医療画像の段階的登録を行う,新しい強化学習ベースのフレームワークを提案する。
本手法は2次元および3次元の医用画像データセットを用いて評価し,その一部は大きな変形を含む。
論文 参考訳(メタデータ) (2021-12-14T14:08:56Z) - Image Deformation Estimation via Multi-Objective Optimization [13.159751065619544]
自由形変形モデルは、画像上の制御点格子を操作することにより、幅広い非剛体変形を表現することができる。
フィットネスランドスケープの複雑さのため,変形画像にモデルを直接適合させることは困難である。
論文 参考訳(メタデータ) (2021-06-08T06:52:12Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。