論文の概要: PhotoArtAgent: Intelligent Photo Retouching with Language Model-Based Artist Agents
- arxiv url: http://arxiv.org/abs/2505.23130v1
- Date: Thu, 29 May 2025 06:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.705943
- Title: PhotoArtAgent: Intelligent Photo Retouching with Language Model-Based Artist Agents
- Title(参考訳): PhotoArtAgent: 言語モデルに基づくアーティストエージェントによるインテリジェントな写真リタッチ
- Authors: Haoyu Chen, Keda Tao, Yizao Wang, Xinlei Wang, Lei Zhu, Jinjin Gu,
- Abstract要約: PhotoArtAgentは、プロのアーティストの創造的なプロセスをエミュレートするインテリジェントな解釈システムだ。
PhotoArtAgentは、その創造的根拠に関する透明でテキストベースの説明を提供し、意味のあるインタラクションとユーザコントロールを促進する。
実験の結果,PhotoArtAgentは既存の自動ツールを超えるだけでなく,プロの人間アーティストに匹敵する結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 28.44728600512551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photo retouching is integral to photographic art, extending far beyond simple technical fixes to heighten emotional expression and narrative depth. While artists leverage expertise to create unique visual effects through deliberate adjustments, non-professional users often rely on automated tools that produce visually pleasing results but lack interpretative depth and interactive transparency. In this paper, we introduce PhotoArtAgent, an intelligent system that combines Vision-Language Models (VLMs) with advanced natural language reasoning to emulate the creative process of a professional artist. The agent performs explicit artistic analysis, plans retouching strategies, and outputs precise parameters to Lightroom through an API. It then evaluates the resulting images and iteratively refines them until the desired artistic vision is achieved. Throughout this process, PhotoArtAgent provides transparent, text-based explanations of its creative rationale, fostering meaningful interaction and user control. Experimental results show that PhotoArtAgent not only surpasses existing automated tools in user studies but also achieves results comparable to those of professional human artists.
- Abstract(参考訳): 写真のリタッチは写真芸術にとって不可欠であり、感情的な表現と物語の深さを高めるための単純な技術的修正をはるかに超えている。
アーティストは専門知識を活用して、意図的に調整することでユニークな視覚効果を作り出すが、専門家でないユーザーは、視覚的に喜ぶ結果を生み出すが解釈的な深さと対話的な透明性を欠く自動化ツールに頼っていることが多い。
本稿では,視覚言語モデル(VLM)と高度な自然言語推論を組み合わせたインテリジェントなシステムであるPhotoArtAgentを紹介し,プロのアーティストの創造プロセスをエミュレートする。
エージェントは明示的な芸術的分析を行い、戦略の変更を計画し、APIを通じてLightroomに正確なパラメータを出力する。
その後、得られた画像を評価し、望ましい芸術的ビジョンが達成されるまで反復的に洗練する。
このプロセスを通じてPhotoArtAgentは、その創造的根拠に関する透明でテキストベースの説明を提供し、意味のあるインタラクションとユーザコントロールを促進する。
実験の結果,PhotoArtAgentは既存の自動ツールを超えるだけでなく,プロの人間アーティストに匹敵する結果が得られることがわかった。
関連論文リスト
- ArtistAuditor: Auditing Artist Style Pirate in Text-to-Image Generation Models [61.55816738318699]
本稿では,テキスト・画像生成モデルにおける新しいデータ利用監査手法を提案する。
ArtistAuditorは、多彩なスタイルの表現を得るためにスタイル抽出器を使用し、アートワークをアーティストのスタイルのサンプリングとして扱う。
6つのモデルとデータセットの組み合わせによる実験結果は、ArtistAuditorが高いAUC値を達成可能であることを示している。
論文 参考訳(メタデータ) (2025-04-17T16:15:38Z) - Expertise elevates AI usage: experimental evidence comparing laypeople and professional artists [1.5296069874080693]
生成AIを用いて芸術家と一般人の芸術的能力を比較する。
平均して、アーティストは彼らの通常の作品よりも忠実でクリエイティブなアウトプットを生み出した。
AIはコンテンツ作成を楽にするかもしれないが、専門家の専門知識は依然として価値がある。
論文 参考訳(メタデータ) (2025-01-21T18:53:21Z) - Emergence of Painting Ability via Recognition-Driven Evolution [49.666177849272856]
脳卒中枝とパレット枝を併用したモデルを提案する。
マシンビジョンで達成した認識精度を計測することにより、視覚コミュニケーションの効率を定量化する。
実験結果から,本モデルは高次認識タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-01-09T04:37:31Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Learning to Evaluate the Artness of AI-generated Images [64.48229009396186]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。
我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。
このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文 参考訳(メタデータ) (2023-05-08T17:58:27Z) - RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards
Precise Expressions [9.51095076299351]
本研究では,生成した画像の正確な表現に向けて,テキストプロンプトを洗練するためのRePromptを開発する。
クラウドソースによる編集戦略に触発されて,名詞の数や具体性などの直感的なテキスト機能をキュレートした。
プロキシモデルのモデル説明を用いて,テキストプロンプトを調整し,正確な感情表現のための画像生成を最適化した。
論文 参考訳(メタデータ) (2023-02-19T03:31:31Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Generative Art Using Neural Visual Grammars and Dual Encoders [25.100664361601112]
生成芸術を創出するための新しいアルゴリズムについて述べる。
ユーザーがテキスト文字列を入力することができ、この文字列に対する創造的な応答で画像が出力されます。
論文 参考訳(メタデータ) (2021-05-01T04:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。