論文の概要: AesFormer: Transform Everyday Photos into Beautiful Memories
- arxiv url: http://arxiv.org/abs/2605.22126v1
- Date: Thu, 21 May 2026 08:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.533966
- Title: AesFormer: Transform Everyday Photos into Beautiful Memories
- Title(参考訳): AesFormer:毎日の写真を美しい思い出に変える
- Authors: Tianxiang Du, Hulingxiao He, Yuxin Peng,
- Abstract要約: 我々は, 審美的写真再構成を, 構造的再構築による美的品質の向上として定式化する。
AesFormerは、画像編集から美的計画を切り離す2段階のフレームワークである。
AesFormerはAPRのパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 47.103757942619914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In everyday photography, aesthetically appealing moments are often captured with structural flaws (e.g., composition, camera viewpoint, or pose) that existing retouching and portrait enhancement methods cannot fix. We formulate Aesthetic Photo Reconstruction (APR) as improving a photo's aesthetic quality via structural reconstruction while preserving subject identity and scene semantics. Although recent advances in image editing models make APR feasible, they often lack aesthetic understanding, yielding edits that are semantically plausible yet aesthetically weak. To address this, we propose AesFormer, a two-stage framework that decouples aesthetic planning from image editing. In Stage 1, an aesthetic action model (AesThinker) analyzes the input along seven progressive photographic dimensions and outputs executable editing actions; we further apply GRPO-A to encourage broad exploration over diverse action plans beyond SFT. In Stage 2, an action-conditioned editor (AesEditor) performs structural edits guided by these actions. To support APR, we build a video-based corpus-mining pipeline (VCMP) and construct AesRecon, a benchmark of 9,071 strictly aligned (poor, good) image pairs. Experiments show that AesFormer substantially improves APR performance and is competitive with Nano Banana Pro. Code is available at https://github.com/PKU-ICST-MIPL/AesFormer_ICML2026.
- Abstract(参考訳): 日常的な写真では、既存のリタッチやポートレート・エンハンスメントの方法では修正できない構造的欠陥(例えば、構成、カメラの視点、ポーズ)で、審美的に魅力的な瞬間がしばしば撮影される。
美的写真再構成 (APR) は, 被写体識別とシーンセマンティクスを保ちながら, 画像の美的品質を向上させるものとして定式化した。
画像編集モデルの最近の進歩により、APRは実現可能であるが、しばしば審美的理解が欠如し、意味論的に妥当だが審美的に弱い編集が得られる。
これを解決するために,画像編集から美的計画を切り離す2段階のフレームワークであるAesFormerを提案する。
ステージ1では、7つのプログレッシブな写真次元に沿って入力を分析し、実行可能な編集動作を出力する。
ステージ2では、アクション条件エディタ(AesEditor)がこれらのアクションによってガイドされる構造的な編集を実行する。
APRをサポートするために、ビデオベースのコーパスマイニングパイプライン(VCMP)を構築し、9,071のベンチマークであるAesReconを構築した。
実験の結果、AesFormerはAPRの性能を大幅に改善し、Nano Banana Proと競合することがわかった。
コードはhttps://github.com/PKU-ICST-MIPL/AesFormer_ICML2026で公開されている。
関連論文リスト
- PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning [26.368648607025676]
PhotoAgentは、明示的な審美計画を通じて画像編集を進めるシステムだ。
ユーザの美的意図を理由として、ツリー検索による複数ステップの編集アクションを計画し、クローズドループ実行によって結果を反復的に洗練する。
実験では、PhotoAgentはベースライン法と比較して、命令順守と視覚的品質の両方を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-26T09:46:06Z) - I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing [43.082008983889956]
拡散モデルに基づくほとんどのメソッドは、編集の第一段階としてDDIM Inversionを使用する。
そこで本研究では,Dual-Schedule Inversionと呼ばれる新しいインバージョンとサンプリング手法を提案する。
また、Dual-Schedule Inversionとユーザフレンドリーな画像編集のための異なる編集手法を適応的に組み合わせる分類器を設計する。
論文 参考訳(メタデータ) (2024-12-15T11:04:06Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。