論文の概要: Understanding Generative AI Capabilities in Everyday Image Editing Tasks
- arxiv url: http://arxiv.org/abs/2505.16181v1
- Date: Thu, 22 May 2025 03:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.015931
- Title: Understanding Generative AI Capabilities in Everyday Image Editing Tasks
- Title(参考訳): 日々の画像編集タスクにおける生成AI能力の理解
- Authors: Mohammad Reza Taesiri, Brandon Collins, Logan Bolton, Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen,
- Abstract要約: Redditコミュニティで過去12年間(2013-2025)に行われた83万件のリクエストを分析し、305万件のPSRウィザード編集を収集した。
人間の評価によると、最高のAIエディターによって要求の約33%が満たされる。
AIエディタは、よりオープンなタスクよりも正確な編集を必要とする、創造性の低い要求に対して、パフォーマンスが悪くなる。
- 参考スコア(独自算出の注目度): 52.812515570607296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI (GenAI) holds significant promise for automating everyday image editing tasks, especially following the recent release of GPT-4o on March 25, 2025. However, what subjects do people most often want edited? What kinds of editing actions do they want to perform (e.g., removing or stylizing the subject)? Do people prefer precise edits with predictable outcomes or highly creative ones? By understanding the characteristics of real-world requests and the corresponding edits made by freelance photo-editing wizards, can we draw lessons for improving AI-based editors and determine which types of requests can currently be handled successfully by AI editors? In this paper, we present a unique study addressing these questions by analyzing 83k requests from the past 12 years (2013-2025) on the Reddit community, which collected 305k PSR-wizard edits. According to human ratings, approximately only 33% of requests can be fulfilled by the best AI editors (including GPT-4o, Gemini-2.0-Flash, SeedEdit). Interestingly, AI editors perform worse on low-creativity requests that require precise editing than on more open-ended tasks. They often struggle to preserve the identity of people and animals, and frequently make non-requested touch-ups. On the other side of the table, VLM judges (e.g., o1) perform differently from human judges and may prefer AI edits more than human edits. Code and qualitative examples are available at: https://psrdataset.github.io
- Abstract(参考訳): Generative AI(GenAI)は、特に2025年3月25日にGPT-4oがリリースされた後、日常的な画像編集タスクを自動化することを約束している。
しかし、たいていの人はどの科目を編集したいのか?
どのような編集アクション(例えば、被写体を取り除いたり、スタイルを変えたり)を実行したいのか?
人は予測可能な結果の正確な編集を好むのか、それとも非常に創造的な編集を好むのか?
現実世界の要求の特徴とフリーランスの写真編集ウィザードによる編集を理解することで、AIベースのエディタを改善するための教訓を導き、現在どのタイプのリクエストをAIエディタでうまく処理できるかを判断できるだろうか?
本稿では,過去12年間(2013-2025)のRedditコミュニティにおける83kリクエストを分析し,305k PSRウィザード編集を収集した。
人間の評価によると、最高のAIエディタ(GPT-4o、Gemini-2.0-Flash、SeedEditなど)が要求の約33%を達成できる。
興味深いことに、AIエディタは、よりオープンなタスクよりも正確な編集を必要とする低創造性要求に対して、より悪い処理を行う。
彼らはしばしば人や動物のアイデンティティを維持するのに苦労し、しばしば要求されないタッチアップを行う。
表の反対側では、VLMの審査員(例えば、o1)は人間の審査員と異なる働きをし、人間の編集よりもAIの編集を好むかもしれない。
コードと定性的な例は、https://psrdataset.github.ioで公開されている。
関連論文リスト
- Responsible Visual Editing [53.45295657891099]
画像内の特定の概念を修正し、変更を最小化しながら、より責任を負うようにする。
有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。
AltBearデータセットは、実画像に見られる有害な内容とよく一致し、一貫した実験的な評価を提供する。
論文 参考訳(メタデータ) (2024-04-08T14:56:26Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation [62.68385635551825]
ディープフェイク(deepfakes)から単純な編集(deepfakes)までの多モーダルな偽情報は、社会的な重要な問題である。
この例と偽情報を広める有害な編集の違いは意図の1つである。
この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。
論文 参考訳(メタデータ) (2020-12-08T20:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。