論文の概要: VeraRetouch: A Lightweight Fully Differentiable Framework for Multi-Task Reasoning Photo Retouching
- arxiv url: http://arxiv.org/abs/2604.27375v1
- Date: Thu, 30 Apr 2026 03:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.908556
- Title: VeraRetouch: A Lightweight Fully Differentiable Framework for Multi-Task Reasoning Photo Retouching
- Title(参考訳): VeraRetouch:マルチタスク・リアクション・フォト・リタッチのための軽量で完全な差別化可能なフレームワーク
- Authors: Yihong Guo, Youwei Lyu, Jiajun Tang, Yizhuo Zhou, Hongliang Wang, Jinwei Chen, Changqing Zou, Qingnan Fan,
- Abstract要約: VeraRetouchは、マルチタスクの写真リタッチのための軽量で完全に差別化可能なフレームワークである。
我々は、0.5Bビジョンランゲージモデル(VLM)を中央インテリジェンスとして使用して、修正計画の定式化を行っている。
外部ツールを置き換える、完全に差別化可能なRetouch Rendererを開発しています。
- 参考スコア(独自算出の注目度): 27.18046653314556
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning photo retouching has gained significant traction, requiring models to analyze image defects, give reasoning processes, and execute precise retouching enhancements. However, existing approaches often rely on non-differentiable external software, creating optimization barriers and suffering from high parameter redundancy and limited generalization. To address these challenges, we propose VeraRetouch, a lightweight and fully differentiable framework for multi-task photo retouching. We employ a 0.5B Vision-Language Model (VLM) as the central intelligence to formulate retouching plans based on instructions and scene semantics. Furthermore, we develop a fully differentiable Retouch Renderer that replaces external tools, enabling direct end-to-end pixel-level training through decoupled control latents for lighting, global color, and specific color adjustments. To overcome data scarcity, we introduce AetherRetouch-1M+, the first million-scale dataset for professional retouching, constructed via a new inverse degradation workflow. Furthermore, we propose DAPO-AE, a reinforcement learning post-training strategy that enhances autonomous aesthetic cognition. Extensive experiments demonstrate that VeraRetouch achieves state-of-the-art performance across multiple benchmarks while maintaining a significantly smaller footprint, enabling mobile deployment. Our code and models are publicly available at https://github.com/OpenVeraTeam/VeraRetouch.
- Abstract(参考訳): 写真のリタッチは、画像の欠陥を分析し、推論プロセスを与え、正確なリタッチ拡張を実行するモデルを必要とするなど、大きな注目を集めている。
しかし、既存のアプローチは、しばしば微分不可能な外部ソフトウェアに依存し、最適化障壁を作成し、高いパラメータ冗長性と限定的な一般化に苦しむ。
これらの課題に対処するため,マルチタスク・フォト・リタッチのための軽量かつ完全に差別化可能なフレームワークであるVeraRetouchを提案する。
0.5Bビジョンランゲージモデル(VLM)を中心的インテリジェンスとして,指示やシーンセマンティクスに基づいて計画の変更を定式化する。
さらに,外部ツールを代替する完全微分可能なRetouch Rendererを開発し,照明,大域色,特定色調整のための非結合制御ラテントによるエンドツーエンドの画素レベルトレーニングを実現する。
データ不足を克服するために、新しい逆分解ワークフローによって構築されたプロフェッショナルなリタッチのための最初の100万スケールデータセットであるAetherRetouch-1M+を紹介します。
さらに,自律的審美認知を高める強化学習後学習戦略であるDAPO-AEを提案する。
大規模な実験では、VeraRetouchは複数のベンチマークで最先端のパフォーマンスを実現し、フットプリントは大幅に小さく、モバイルデプロイメントを可能にしている。
私たちのコードとモデルはhttps://github.com/OpenVeraTeam/VeraRetouch.comで公開されています。
関連論文リスト
- UniSER: A Foundation Model for Unified Soft Effects Removal [72.60782767314713]
一つのフレームワーク内でのソフトエフェクトによる多様な劣化に対処できるUniSERを導入する。
我々の方法論は、堅牢性と一般化を保証するために、巨大な3.8Mペアデータセットのキュレーションに重点を置いている。
このシナジスティックなアプローチにより、UniSERはスペシャリストモデルとジェネラリストモデルの両方を大きく上回る。
論文 参考訳(メタデータ) (2025-11-18T06:39:39Z) - Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark [58.61079960074608]
既存の赤外線画像強調法は、個々の劣化に対処することに焦点を当てている。
一般的にRGBセンサーに適用されるオールインワンエンハンスメント法は、有効性が制限されることが多い。
論文 参考訳(メタデータ) (2025-10-10T12:55:54Z) - DSwinIR: Rethinking Window-based Attention for Image Restoration [109.38288333994407]
画像復元のための基盤となるバックボーンアーキテクチャとしてデフォルマブルスライディングウィンドウ変換器(DSwinIR)を提案する。
DSwinIRの中心には、Deformable Sliding Window (DSwin) Attentionという小説がある。
大規模な実験により、DSwinIRは幅広い画像復元タスクに新しい最先端の技術を設定できることがわかった。
論文 参考訳(メタデータ) (2025-04-07T09:24:41Z) - UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Adaptive Blind All-in-One Image Restoration [15.726917603679716]
ブラインドオールインワン画像復元モデルは、未知の歪みで劣化した入力から高品質な画像を復元することを目的としている。
ABAIRは、単純で効果的な適応型ブラインドオールインワン修復モデルであり、複数の劣化を処理し、目に見えない歪みをうまく一般化する。
提案モデルは,5段と3段のIR構成における最先端性能を上回るだけでなく,目に見えない劣化や複合歪みに対して優れた一般化を示す。
論文 参考訳(メタデータ) (2024-11-27T14:58:08Z) - Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。
本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-08-21T20:07:02Z) - DRM-IR: Task-Adaptive Deep Unfolding Network for All-In-One Image
Restoration [5.573836220587265]
本研究は,効率的な動的参照モデリングパラダイム(DRM-IR)を提案する。
DRM-IRはタスク適応型劣化モデリングとモデルベースの画像復元で構成されている。
複数のベンチマークデータセットの実験は、DRM-IRがAll-In-One IRで最先端のIRを達成することを示している。
論文 参考訳(メタデータ) (2023-07-15T02:42:19Z) - Very Lightweight Photo Retouching Network with Conditional Sequential
Modulation [42.311196534333284]
極めて軽量なフレームワーク-条件付き逐次リタッチネットワーク(CSRNet)を提案する。
CSRNetは37K未満のトレーニング可能なパラメータしか含まないが、これは既存の学習ベースの手法よりも桁違いに小さい。
実験では、ベンチマークMIT-Adobe FiveKデータセットで最新のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-04-13T15:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。