Fugu-MT 論文翻訳(概要): PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching

論文の概要: PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching

arxiv url: http://arxiv.org/abs/2511.12998v1
Date: Mon, 17 Nov 2025 05:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:24.693781
Title: PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching
Title（参考訳）: PerTouch: パーソナライズされたセマンティックなイメージリタッチのためのVLM駆動エージェント
Authors: Zewei Chang, Zheng-Peng Duan, Jianxing Zhang, Chun-Le Guo, Siyu Liu, Hyungju Chun, Hyunhee Park, Zikun Liu, Chongyi Li,
Abstract要約: 本稿ではPerTouchと呼ばれる拡散型画像修正フレームワークを提案する。本手法は,グローバルな美学を維持しつつ,セマンティックレベルのイメージリタッチをサポートする。我々は,強力なユーザ命令と弱いユーザ命令の両方を扱えるVLMエージェントを開発した。
参考スコア（独自算出の注目度）: 54.3683137773426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image retouching aims to enhance visual quality while aligning with users' personalized aesthetic preferences. To address the challenge of balancing controllability and subjectivity, we propose a unified diffusion-based image retouching framework called PerTouch. Our method supports semantic-level image retouching while maintaining global aesthetics. Using parameter maps containing attribute values in specific semantic regions as input, PerTouch constructs an explicit parameter-to-image mapping for fine-grained image retouching. To improve semantic boundary perception, we introduce semantic replacement and parameter perturbation mechanisms in the training process. To connect natural language instructions with visual control, we develop a VLM-driven agent that can handle both strong and weak user instructions. Equipped with mechanisms of feedback-driven rethinking and scene-aware memory, PerTouch better aligns with user intent and captures long-term preferences. Extensive experiments demonstrate each component's effectiveness and the superior performance of PerTouch in personalized image retouching. Code is available at: https://github.com/Auroral703/PerTouch.
Abstract（参考訳）: 画像のリタッチは、ユーザのパーソナライズされた美的好みに合わせて視覚的品質を向上させることを目的としている。制御性と主観性のバランスをとることの課題に対処するため,PerTouchと呼ばれる拡散型画像修正フレームワークを提案する。本手法は,グローバルな美学を維持しつつ,セマンティックレベルのイメージリタッチをサポートする。特定のセマンティック領域の属性値を含むパラメータマップを入力として、PerTouchは、きめ細かい画像リタッチのための明示的なパラメータ・ツー・イメージマッピングを構築する。意味的境界知覚を改善するために,学習過程における意味的置換とパラメータ摂動機構を導入する。自然言語命令と視覚的制御を結びつけるために,強い命令と弱い命令の両方を扱えるVLM駆動エージェントを開発した。フィードバック駆動の再考とシーン認識メモリのメカニズムを備えたPerTouchは、ユーザの意図と整合し、長期的な好みをキャプチャする。大規模な実験では、パーソナライズされたイメージリタッチにおける各コンポーネントの有効性とPerTouchの優れたパフォーマンスが示されている。コードは、https://github.com/Auroral703/PerTouch.comで入手できる。

関連論文リスト

RetouchLLM: Training-free Code-based Image Retouching with Vision Language Models [76.79706360982162]
トレーニング不要なホワイトボックス画像リタッチシステムであるRetouchLLMを提案する。高解像度の画像に直接、解釈可能でコードベースのリタッチを実行する。我々のフレームワークは、人間がマルチステップのリタッチを行う方法と同じような方法で、徐々に画像を強化する。
論文参考訳（メタデータ） (2025-10-09T10:40:49Z)
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning [33.709835660394305]
SPF-Portraitは、カスタマイズされたターゲットセマンティクスを純粋に理解し、オリジナルのモデルの破壊を最小限にする先駆的な作業である。筆者らはSPF-Portraitにおいて,行動アライメント参照としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。
論文参考訳（メタデータ） (2025-04-01T03:37:30Z)
DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts [45.730449182899754]
DiffRetouch という拡散型リタッチ方式。 4つの画像属性を調整可能とし、ユーザフレンドリーな編集機構を提供する。テクスチャ歪みと制御感度の問題をそれぞれ扱うために,アフィン二元格子とコントラスト学習方式を導入する。
論文参考訳（メタデータ） (2024-07-04T09:09:42Z)
Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文参考訳（メタデータ） (2021-02-01T21:38:36Z)
Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文参考訳（メタデータ） (2020-07-16T15:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。