論文の概要: PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching
- arxiv url: http://arxiv.org/abs/2511.12998v1
- Date: Mon, 17 Nov 2025 05:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.693781
- Title: PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching
- Title(参考訳): PerTouch: パーソナライズされたセマンティックなイメージリタッチのためのVLM駆動エージェント
- Authors: Zewei Chang, Zheng-Peng Duan, Jianxing Zhang, Chun-Le Guo, Siyu Liu, Hyungju Chun, Hyunhee Park, Zikun Liu, Chongyi Li,
- Abstract要約: 本稿ではPerTouchと呼ばれる拡散型画像修正フレームワークを提案する。
本手法は,グローバルな美学を維持しつつ,セマンティックレベルのイメージリタッチをサポートする。
我々は,強力なユーザ命令と弱いユーザ命令の両方を扱えるVLMエージェントを開発した。
- 参考スコア(独自算出の注目度): 54.3683137773426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retouching aims to enhance visual quality while aligning with users' personalized aesthetic preferences. To address the challenge of balancing controllability and subjectivity, we propose a unified diffusion-based image retouching framework called PerTouch. Our method supports semantic-level image retouching while maintaining global aesthetics. Using parameter maps containing attribute values in specific semantic regions as input, PerTouch constructs an explicit parameter-to-image mapping for fine-grained image retouching. To improve semantic boundary perception, we introduce semantic replacement and parameter perturbation mechanisms in the training process. To connect natural language instructions with visual control, we develop a VLM-driven agent that can handle both strong and weak user instructions. Equipped with mechanisms of feedback-driven rethinking and scene-aware memory, PerTouch better aligns with user intent and captures long-term preferences. Extensive experiments demonstrate each component's effectiveness and the superior performance of PerTouch in personalized image retouching. Code is available at: https://github.com/Auroral703/PerTouch.
- Abstract(参考訳): 画像のリタッチは、ユーザのパーソナライズされた美的好みに合わせて視覚的品質を向上させることを目的としている。
制御性と主観性のバランスをとることの課題に対処するため,PerTouchと呼ばれる拡散型画像修正フレームワークを提案する。
本手法は,グローバルな美学を維持しつつ,セマンティックレベルのイメージリタッチをサポートする。
特定のセマンティック領域の属性値を含むパラメータマップを入力として、PerTouchは、きめ細かい画像リタッチのための明示的なパラメータ・ツー・イメージマッピングを構築する。
意味的境界知覚を改善するために,学習過程における意味的置換とパラメータ摂動機構を導入する。
自然言語命令と視覚的制御を結びつけるために,強い命令と弱い命令の両方を扱えるVLM駆動エージェントを開発した。
フィードバック駆動の再考とシーン認識メモリのメカニズムを備えたPerTouchは、ユーザの意図と整合し、長期的な好みをキャプチャする。
大規模な実験では、パーソナライズされたイメージリタッチにおける各コンポーネントの有効性とPerTouchの優れたパフォーマンスが示されている。
コードは、https://github.com/Auroral703/PerTouch.comで入手できる。
関連論文リスト
- BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling [29.77085426345252]
顔のリタッチには、全体的な美的魅力を高めるために、独特の顔認証機能を保持しながら微妙な欠陥を取り除く必要がある。
既存の手法は基本的なトレードオフに苦しむ。ラベル付きデータに対する教師付き学習はピクセルレベルのラベルの模倣に制約され、複雑な主観的人間の美的嗜好を捉えることができない。
顔のリタッチと人間の美的嗜好を一致させる強化学習フレームワークであるBeautyGRPOを提案する。
論文 参考訳(メタデータ) (2026-03-01T15:59:31Z) - ProxyImg: Towards Highly-Controllable Image Representation via Hierarchical Disentangled Proxy Embedding [44.20713526887855]
本稿では,意味的,幾何学的,テクスチュラルな属性を独立したパラメータ空間に分割する階層的プロキシベースパラメトリック画像表現を提案する。
本手法は,直感的,対話的,物理的に妥当な操作が可能でありながら,パラメータが大幅に少ない最先端のレンダリング忠実度を実現する。
論文 参考訳(メタデータ) (2026-02-02T09:53:45Z) - RetouchLLM: Training-free Code-based Image Retouching with Vision Language Models [76.79706360982162]
トレーニング不要なホワイトボックス画像リタッチシステムであるRetouchLLMを提案する。
高解像度の画像に直接、解釈可能でコードベースのリタッチを実行する。
我々のフレームワークは、人間がマルチステップのリタッチを行う方法と同じような方法で、徐々に画像を強化する。
論文 参考訳(メタデータ) (2025-10-09T10:40:49Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning [33.709835660394305]
SPF-Portraitは、カスタマイズされたターゲットセマンティクスを純粋に理解し、オリジナルのモデルの破壊を最小限にする先駆的な作業である。
筆者らはSPF-Portraitにおいて,行動アライメント参照としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。
異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。
論文 参考訳(メタデータ) (2025-04-01T03:37:30Z) - DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts [45.730449182899754]
DiffRetouch という拡散型リタッチ方式。
4つの画像属性を調整可能とし、ユーザフレンドリーな編集機構を提供する。
テクスチャ歪みと制御感度の問題をそれぞれ扱うために,アフィン二元格子とコントラスト学習方式を導入する。
論文 参考訳(メタデータ) (2024-07-04T09:09:42Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。