論文の概要: CLPIPS: A Personalized Metric for AI-Generated Image Similarity
- arxiv url: http://arxiv.org/abs/2604.01234v1
- Date: Thu, 26 Mar 2026 04:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.563194
- Title: CLPIPS: A Personalized Metric for AI-Generated Image Similarity
- Title(参考訳): CLPIPS:AI生成画像類似性のためのパーソナライズされたメトリクス
- Authors: Khoi Trinh, Jay Rothenberger, Scott Seidenberger, Dimitrios Diochnos, Anindya Maiti,
- Abstract要約: 我々はCLPIPS(Customized Learned Perceptual Image Patch similarity)を紹介する。
CLPIPSはLPIPSのカスタマイズされた拡張であり、計量の類似性の概念を人間の判断に直接適応させる。
被験者が対象画像とランク生成した出力を、知覚的類似性により反復的に再生する人体データセット上でCLPIPSを評価する。
- 参考スコア(独自算出の注目度): 0.31897361244549305
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Iterative prompt refinement is central to reproducing target images with text to image generative models. Previous studies have incorporated image similarity metrics (ISMs) as additional feedback to human users. Existing ISMs such as LPIPS and CLIP provide objective measures of image likeness but often fail to align with human judgments, particularly in context specific or user driven tasks. In this paper, we introduce Customized Learned Perceptual Image Patch Similarity (CLPIPS), a customized extension of LPIPS that adapts a metric's notion of similarity directly to human judgments. We aim to explore whether lightweight, human augmented fine tuning can meaningfully improve perceptual alignment, positioning similarity metrics as adaptive components for human in the loop workflows with text to image tools. We evaluate CLPIPS on a human subject dataset in which participants iteratively regenerate target images and rank generated outputs by perceived similarity. Using margin ranking loss on human ranked image pairs, we fine tune only the LPIPS layer combination weights and assess alignment via Spearman rank correlation and Intraclass Correlation Coefficient. Our results show that CLPIPS achieves stronger correlation and agreement with human judgments than baseline LPIPS. Rather than optimizing absolute metric performance, our work emphasizes improving alignment consistency between metric predictions and human ranks, demonstrating that even limited human specific fine tuning can meaningfully enhance perceptual alignment in human in the loop text to image workflows.
- Abstract(参考訳): イテレーティブ・プロンプト・リファインメントは、画像生成モデルへのテキストによるターゲット画像の再生の中心である。
従来の研究は、画像類似度指標(ISM)を人間のユーザーへのフィードバックとして取り入れてきた。
LPIPSやCLIPのような既存のISMは、画像のような客観的な尺度を提供するが、特にコンテキスト固有のタスクやユーザ主導のタスクにおいて、人間の判断と一致しないことが多い。
本稿では,LPIPS のカスタマイズ拡張である Customized Learned Perceptual Image Patch similarity (CLPIPS) を紹介する。
本研究の目的は、テキストから画像ツールによるループワークフローにおいて、人間のための適応的なコンポーネントとして類似度指標を配置することで、軽量で人為的な微調整が知覚的アライメントを有意義に改善できるかどうかを検討することである。
被験者が対象画像とランク生成した出力を、知覚的類似性により反復的に再生する人体データセット上でCLPIPSを評価する。
ヒトのランク画像対におけるマージンランキングの損失を用いて、LPIPS層の組み合わせのみを微調整し、スピアマンランク相関とクラス内相関係数を用いてアライメントを評価する。
その結果, CLPIPSはベースラインLPIPSよりも強い相関性を示し, 人間の判断と一致していることがわかった。
我々の研究は、絶対的なメートル法性能を最適化するよりも、計量予測と人格の整合性の向上に重点を置いており、人間特有の微調整さえも、ループテキストから画像ワークフローへの人間の知覚的整合性を有意義に向上させることができることを実証している。
関連論文リスト
- Structured Uncertainty Similarity Score (SUSS): Learning a Probabilistic, Interpretable, Perceptual Metric Between Images [3.1296300934639327]
人間の視覚と一致した知覚的類似度スコアは、コンピュータビジョンモデルのトレーニングと評価の両方に不可欠である。
SUSS (Structured Uncertainity similarity Score) を導入し、知覚コンポーネントの集合を通して各イメージをモデル化する。
最終的なスコアは、人間の知覚データセットから学んだ重み付きコンポーネントログ確率の重み付き総和である。
論文 参考訳(メタデータ) (2025-12-03T11:48:59Z) - Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images [0.7499722271664147]
GLIPS(Global-Local Image Perceptual Score)は、AI生成画像の写実的画像品質を評価するために設計された画像メトリクスである。
様々な生成モデルにわたる総合的なテストは、GLIPSが人間のスコアと相関する点において、FID、SSIM、MS-SSIMといった既存の指標を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-15T15:19:23Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - R-LPIPS: An Adversarially Robust Perceptual Similarity Metric [71.33812578529006]
本稿では,Robust Learned Perceptual Image Patch similarity(R-LPIPS)メトリクスを提案する。
R-LPIPSは、敵対的に訓練された深い特徴を活用する新しい指標である。
従来のLPIPSメトリックと比較して,R-LPIPSの優位性を示す。
論文 参考訳(メタデータ) (2023-07-27T19:11:31Z) - End-to-End Context-Aided Unicity Matching for Person Re-identification [100.02321122258638]
本稿では,人間同士の一致関係を学習・精査するための,エンドツーエンドの対人一意整合アーキテクチャを提案する。
サンプルのグローバルコンテキスト関係を用いて,ソフトマッチング結果を洗練し,両部グラフマッチングにより一致ユニシティに到達する。
実世界における人物再識別の応用を十分に考慮し, ワンショットとマルチショットの双方で一様マッチングを実現する。
論文 参考訳(メタデータ) (2022-10-20T07:33:57Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - Enriching ImageNet with Human Similarity Judgments and Psychological
Embeddings [7.6146285961466]
人間の知覚と推論のタスク汎用能力を具現化したデータセットを提案する。
ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、人間の類似性判定で構成されている。
新しいデータセットは、教師なし学習アルゴリズムの評価を含む、タスクとパフォーマンスのメトリクスの範囲をサポートする。
論文 参考訳(メタデータ) (2020-11-22T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。