論文の概要: Towards In-Context Tone Style Transfer with A Large-Scale Triplet Dataset
- arxiv url: http://arxiv.org/abs/2604.16114v1
- Date: Fri, 17 Apr 2026 14:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.960098
- Title: Towards In-Context Tone Style Transfer with A Large-Scale Triplet Dataset
- Title(参考訳): 大規模トリプルトデータセットを用いたインコンテキストトーンスタイル転送に向けて
- Authors: Yuhai Deng, Huimin She, Wei Shen, Meng Li, Ruoxi Wu, Lunxi Yuan, Xiang Li,
- Abstract要約: ICToneは、両方の画像に共同で条件付けすることで、コンテキスト内でトーン転送を行うフレームワークである。
TST100Kは、10万のコンテンツ参照スティル化三重項からなる大規模なデータセットである。
実験はTST100Kの有効性を示し、ICToneは定量測定と人的評価の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.535790430784358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tone style transfer for photo retouching aims to adapt the stylistic tone of the reference image to a given content image. However, the lack of high-quality large-scale triplet datasets with stylized ground truth forces existing methods to rely on self-supervised or proxy objectives, which limits model capability. To mitigate this gap, we design a data construction pipeline to build TST100K, a large-scale dataset of 100,000 content-reference-stylized triplets. At the core of this pipeline, we train a tone style scorer to ensure strict stylistic consistency for each triplet. In addition, existing methods typically extract content and reference features independently and then fuse them in a decoder, which may cause semantic loss and lead to inappropriate color transfer and degraded visual aesthetics. Instead, we propose ICTone, a diffusion-based framework that performs tone transfer in an in-context manner by jointly conditioning on both images, leveraging the semantic priors of generative models for semantic-aware transfer. Reward feedback learning using the tone style scorer is further incorporated to improve stylistic fidelity and visual quality. Experiments demonstrate the effectiveness of TST100K, and ICTone achieves state-of-the-art performance on both quantitative metrics and human evaluations.
- Abstract(参考訳): フォトリタッチのためのトーンスタイル転送は、参照画像のスタイリスティックなトーンを所定のコンテンツ画像に適応させることを目的としている。
しかし、スタイリングされた基底真理を持つ高品質な大規模トリプルトデータセットが欠如しているため、既存の手法は、モデル能力を制限する自己監督やプロキシの目的に頼らざるを得なくなった。
このギャップを緩和するために、データ構築パイプラインを設計し、TST100Kを構築する。
このパイプラインのコアでは、トーンスタイルのスコアラーをトレーニングし、各トリプルトに対して厳密なスタイル整合性を確保する。
さらに、既存の方法では、コンテンツと参照の特徴を独立して抽出し、デコーダに融合し、セマンティックな損失を引き起こし、不適切な色移動と劣化した視覚美学を引き起こす。
そこで本研究では,両画像に共同で条件付けを行うことにより,文脈内でのトーン伝達を行う拡散ベースフレームワークICToneを提案する。
さらにトーンスタイルスコアラーを用いたリワードフィードバック学習を取り入れて、スタイリスティックな忠実さと視覚的品質を向上させる。
実験はTST100Kの有効性を示し、ICToneは定量測定と人的評価の両方で最先端のパフォーマンスを達成する。
関連論文リスト
- Stylized Synthetic Augmentation further improves Corruption Robustness [4.206961078715932]
本稿では,合成画像データとニューラルスタイル転送を組み合わせたトレーニングデータ拡張パイプラインを提案する。
合成画像にスタイル転送を適用すると、一般的なFrechet Inception Distanceメトリックに対して品質が低下するが、これらの画像はモデルトレーニングに驚くほど有益であることを示す。
論文 参考訳(メタデータ) (2025-12-17T18:28:04Z) - Unpaired Deblurring via Decoupled Diffusion Model [55.21345354747609]
UID-Diffは,未知領域における劣化性能の向上を目的とした生成拡散モデルである。
構造的特徴とぼかしパターン抽出器を別々に用いて, 抽出した特徴は, 合成データに対する教師付きデブロアリングタスクと教師なしのぼかし転送タスクに使用される。
実世界のデータセットの実験では、UID-Diffが既存の最先端の手法よりも、ぼやけた除去と構造保存に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:00:40Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - SASSL: Enhancing Self-Supervised Learning via Neural Style Transfer [20.769072160203038]
SASSL: 自己監視学習のためのスタイル拡張は、ニューラルスタイル転送に基づく新しいデータ拡張技術である。
SASSLはイメージのセマンティック属性とスタイリスティック属性を分離し、コンテンツを保存しながらそのスタイルにのみ適用される。
SASSLは、イメージネット上のトップ1画像分類の精度を、確立された自己監督手法と比較して最大2ポイント向上する。
論文 参考訳(メタデータ) (2023-12-02T17:25:30Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。