論文の概要: JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
- arxiv url: http://arxiv.org/abs/2506.17612v1
- Date: Sat, 21 Jun 2025 06:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.503775
- Title: JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
- Title(参考訳): JarvisArt: インテリジェントなフォトリタッチエージェントを通じて、人間の芸術的創造性を解放する
- Authors: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan,
- Abstract要約: 写真のリタッチは現代のビジュアルなストーリーテリングに不可欠なものとなり、ユーザーは美学を捉え創造性を表現できる。
本稿では,マルチモーダル言語モデル(MLLM)に基づくエージェントであるJarvisArtを紹介し,ユーザ意図を理解し,プロのアーティストの推論プロセスを模倣し,Lightroom内の200以上の修正ツールをインテリジェントにコーディネートする。
実世界のユーザ編集から構築した新しいベンチマークであるMMArt-Benchを開発した。
JarvisArt は GPT-4o よりもパフォーマンスが向上し、MMArt-Bench で平均ピクセルレベルのメトリクスが60%向上した。
- 参考スコア(独自算出の注目度): 74.64342043677975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
- Abstract(参考訳): 写真のリタッチは現代のビジュアルなストーリーテリングに不可欠なものとなり、ユーザーは美学を捉え創造性を表現できる。
Adobe Lightroomのようなプロフェッショナルなツールは強力な機能を提供するが、相当な専門知識と手作業を必要とする。
対照的に、既存のAIベースのソリューションは自動化を提供するが、制限された調整性や一般化に悩まされることが多く、多様なパーソナライズされた編集ニーズを満たすことができない。
このギャップを埋めるために、ユーザ意図を理解し、プロのアーティストの推論プロセスを模倣し、Lightroom内の200以上の修正ツールをインテリジェントにコーディネートするマルチモーダルな大規模言語モデル(MLLM)駆動エージェントであるJarvisArtを紹介した。
最初のChain-of-Thoughtは、基本的な推論とツール使用スキルを確立するために微調整を監督し、次にグループ回帰政策最適化(GRPO-R)を使用して、意思決定とツールの能力をさらに向上させる。
また、Lightroomとのシームレスな統合を容易にするためのAgent-to-Lightroom Protocolを提案する。
実世界のユーザ編集から構築した新しいベンチマークであるMMArt-Benchを開発した。
JarvisArtは、ユーザフレンドリなインタラクション、優れた一般化、グローバルとローカルの両方の調整のきめ細かい制御を実証し、インテリジェントな写真リタッチのための新たな道を開く。
特に、GPT-4oでは、MMArt-Benchのコンテント忠実度で平均ピクセルレベルのメトリクスが60%向上し、命令追従能力は同等である。
Project Page: https://jarvisart.vercel.app/.com
関連論文リスト
- PhotoArtAgent: Intelligent Photo Retouching with Language Model-Based Artist Agents [28.44728600512551]
PhotoArtAgentは、プロのアーティストの創造的なプロセスをエミュレートするインテリジェントな解釈システムだ。
PhotoArtAgentは、その創造的根拠に関する透明でテキストベースの説明を提供し、意味のあるインタラクションとユーザコントロールを促進する。
実験の結果,PhotoArtAgentは既存の自動ツールを超えるだけでなく,プロの人間アーティストに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-29T06:00:51Z) - MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills [37.48977077142813]
本稿では,MLLM(Multimodal large language model)を生画像の批判に応用できることを示す。
MLLMは、その基盤となる画像処理操作を最初に認識できることを実証する。
そして、専門家が編集した写真を手続き的に操作することで、推論データセットを合成する。
論文 参考訳(メタデータ) (2025-05-09T16:38:27Z) - WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents [67.31920821192323]
大規模言語モデル(LLM)エージェントがプロシージャ生成を利用してオブジェクトを集約したシーンを生成するシステムであるWorldCraftを紹介する。
本フレームワークでは,コーディネータエージェントが全体の処理を管理し,シーン作成を完了させるために2つの特殊なLLMエージェントと連携する。
パイプラインには軌道制御エージェントが組み込まれており、ユーザはシーンをアニメーション化し、自然言語による対話を通じてカメラを操作することができる。
論文 参考訳(メタデータ) (2025-02-21T17:18:30Z) - INRetouch: Context Aware Implicit Neural Representation for Photography Retouching [54.17599183365242]
本稿では、プロの編集から前後のイメージペアを通して学習する新しいリタッチ転送手法を提案する。
我々は,画像の内容とコンテキストに基づいて,適応的に編集を適用することを学習する文脈認識型インプシットニューラル表現を開発した。
提案手法は,参照編集から暗黙的な変換を抽出し,それらを新しい画像に適用する。
論文 参考訳(メタデータ) (2024-12-05T03:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。