論文の概要: SemiNFT: Learning to Transfer Presets from Imitation to Appreciation via Hybrid-Sample Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08582v1
- Date: Mon, 09 Feb 2026 12:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.220898
- Title: SemiNFT: Learning to Transfer Presets from Imitation to Appreciation via Hybrid-Sample Reinforcement Learning
- Title(参考訳): SemiNFT:ハイブリッド・サンプル強化学習による模倣から評価への事前セットの伝達学習
- Authors: Melany Yang, Yuhang Yu, Diwang Weng, Jinwei Chen, Wei Dong,
- Abstract要約: 本研究では,人体芸術訓練の軌跡を反映した拡散トランスフォーマーを用いたリタッチフレームワークを提案する。
SemiNFTはまず、基本的な構造保存とカラーマッピングの技術を身につけるために、ペア三つ組で教えられている。
強化学習の段階では, 審美的探索と構造的レビューを両立させるハイブリッドオンラインオフライン報酬機構を設計する。
- 参考スコア(独自算出の注目度): 10.278887297409284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photorealistic color retouching plays a vital role in visual content creation, yet manual retouching remains inaccessible to non-experts due to its reliance on specialized expertise. Reference-based methods offer a promising alternative by transferring the preset color of a reference image to a source image. However, these approaches often operate as novice learners, performing global color mappings derived from pixel-level statistics, without a true understanding of semantic context or human aesthetics. To address this issue, we propose SemiNFT, a Diffusion Transformer (DiT)-based retouching framework that mirrors the trajectory of human artistic training: beginning with rigid imitation and evolving into intuitive creation. Specifically, SemiNFT is first taught with paired triplets to acquire basic structural preservation and color mapping skills, and then advanced to reinforcement learning (RL) on unpaired data to cultivate nuanced aesthetic perception. Crucially, during the RL stage, to prevent catastrophic forgetting of old skills, we design a hybrid online-offline reward mechanism that anchors aesthetic exploration with structural review. % experiments Extensive experiments show that SemiNFT not only outperforms state-of-the-art methods on standard preset transfer benchmarks but also demonstrates remarkable intelligence in zero-shot tasks, such as black-and-white photo colorization and cross-domain (anime-to-photo) preset transfer. These results confirm that SemiNFT transcends simple statistical matching and achieves a sophisticated level of aesthetic comprehension. Our project can be found at https://melanyyang.github.io/SemiNFT/.
- Abstract(参考訳): フォトリアリスティックなカラーリタッチは、ビジュアルコンテンツ作成において重要な役割を担っているが、専門的な専門知識に依存しているため、手動リタッチは非専門家にはアクセスできない。
参照ベースの手法は、参照画像の予め設定された色をソース画像に転送することで、有望な代替手段を提供する。
しかし、これらの手法はしばしば初歩的な学習者として機能し、意味的文脈や人間の美学を真に理解することなく、画素レベルの統計から得られたグローバルな色マッピングを行う。
この問題に対処するため,Diffusion Transformer (DiT) ベースのリタッチフレームワークである SemiNFT を提案する。
具体的には、SemiNFTはまず、基本的な構造保存と色マッピングのスキルを得るためにペア三つ子で教えられ、その後、補修されたデータの強化学習(RL)に進み、ニュアンスドの美的知覚を育む。
重要なことは、RLの段階では、古いスキルの破滅的な忘れを防止するために、構造的レビューで審美的な探索を定着させるハイブリッドオンラインオフライン報酬メカニズムを設計する。
%実験 広汎な実験により、SemiNFTは標準のプリセット転送ベンチマークにおいて最先端の手法よりも優れているだけでなく、白黒写真彩色やクロスドメイン(アニメ・ツー・フォト)プリセット転送のようなゼロショットタスクにおいて顕著な知性を示している。
これらの結果から,SemiNFTは単純な統計的マッチングを超越し,審美的理解の高度化を実現することが確認された。
私たちのプロジェクトはhttps://melanyyang.github.io/SemiNFT/で確認できます。
関連論文リスト
- Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement [59.17372460692809]
本研究は、平均教師による半教師付き低照度強化(Semi-LLIE)フレームワークを提案する。
照度分布を忠実に伝達するために、意味認識によるコントラスト損失を導入し、自然色による画像の強調に寄与する。
また,大規模な視覚言語認識モデル(RAM)に基づく新たな知覚損失を提案し,よりリッチなテキストによる画像生成を支援する。
論文 参考訳(メタデータ) (2024-09-25T04:05:32Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Reducing Texture Bias of Deep Neural Networks via Edge Enhancing Diffusion [4.599829659954009]
セマンティックセグメンテーションにおけるCNNのテクスチャバイアスについて検討する。
我々は、テクスチャバイアスを減らすために、テクスチャの少ない前処理画像にCNNを訓練する。
我々はCNNの強いテクスチャ依存性と変換器の適度なテクスチャ依存性を観察する。
論文 参考訳(メタデータ) (2024-02-14T19:10:40Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - Deep Translation Prior: Test-time Training for Photorealistic Style
Transfer [36.82737412912885]
近年のCNN(Deep Convolutional Neural Network)におけるフォトリアリスティックなスタイル転送の解決には,大規模データセットからの集中的なトレーニングが必要となる。
提案手法はDTP(Deep Translation Prior)とよばれる新しいフレームワークで,与えられた入力画像対とトレーニングされていないネットワークをテストタイムでトレーニングすることで,フォトリアリスティックなスタイルの転送を実現する。
論文 参考訳(メタデータ) (2021-12-12T04:54:27Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - TUCaN: Progressively Teaching Colourisation to Capsules [13.50327471049997]
TUCaN(Tiny UCapsNet)という新しいダウンサンプリングアップサンプリングアーキテクチャを提案する。
我々は,色を量化空間内のビンとして識別するピクセルごとの色分類タスクとして,この問題に対処する。
ネットワークをトレーニングするために、標準的なエンドツーエンド学習法とは対照的に、オブジェクトのコンテキストを抽出するプログレッシブラーニング方式を提案する。
論文 参考訳(メタデータ) (2021-06-29T08:44:15Z) - Supervised and Unsupervised Learning of Parameterized Color Enhancement [112.88623543850224]
我々は、教師なし学習と教師なし学習の両方を用いて、画像翻訳タスクとしての色強調の問題に取り組む。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果が得られた。
20世紀初頭の写真や暗黒ビデオフレームに応用することで,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2019-12-30T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。