論文の概要: DiffSim: Taming Diffusion Models for Evaluating Visual Similarity
- arxiv url: http://arxiv.org/abs/2412.14580v1
- Date: Thu, 19 Dec 2024 07:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:24.023891
- Title: DiffSim: Taming Diffusion Models for Evaluating Visual Similarity
- Title(参考訳): DiffSim:視覚的類似性評価のための拡散モデルモデリング
- Authors: Yiren Song, Xiaokang Liu, Mike Zheng Shou,
- Abstract要約: 本稿では,生成モデルにおける視覚的類似度を測定するDiffSim法を提案する。
Denoising U-Netの注目層に特徴を合わせることで、DiffSimは外観とスタイルの類似性の両方を評価する。
また,Sref と IP ベンチマークを導入し,視覚的類似性の評価を行った。
- 参考スコア(独自算出の注目度): 19.989551230170584
- License:
- Abstract: Diffusion models have fundamentally transformed the field of generative models, making the assessment of similarity between customized model outputs and reference inputs critically important. However, traditional perceptual similarity metrics operate primarily at the pixel and patch levels, comparing low-level colors and textures but failing to capture mid-level similarities and differences in image layout, object pose, and semantic content. Contrastive learning-based CLIP and self-supervised learning-based DINO are often used to measure semantic similarity, but they highly compress image features, inadequately assessing appearance details. This paper is the first to discover that pretrained diffusion models can be utilized for measuring visual similarity and introduces the DiffSim method, addressing the limitations of traditional metrics in capturing perceptual consistency in custom generation tasks. By aligning features in the attention layers of the denoising U-Net, DiffSim evaluates both appearance and style similarity, showing superior alignment with human visual preferences. Additionally, we introduce the Sref and IP benchmarks to evaluate visual similarity at the level of style and instance, respectively. Comprehensive evaluations across multiple benchmarks demonstrate that DiffSim achieves state-of-the-art performance, providing a robust tool for measuring visual coherence in generative models.
- Abstract(参考訳): 拡散モデルは、生成モデルの分野を根本的に変え、カスタマイズされたモデル出力と参照入力との類似性の評価を重要視している。
しかし、従来の知覚的類似度メトリクスは、主にピクセルとパッチのレベルで動作し、低レベルの色とテクスチャを比較するが、中間レベルの類似度と画像レイアウト、オブジェクトポーズ、セマンティックコンテンツの違いを捉えられなかった。
コントラスト学習に基づくCLIPと自己教師型学習に基づくDINOは、しばしば意味的類似性を測定するために使用されるが、画像の特徴を高度に圧縮し、外観の詳細を不十分に評価する。
本稿では,事前学習した拡散モデルを視覚的類似度測定に利用し,DiffSim法を導入し,カスタム生成タスクにおける知覚的一貫性の獲得における従来の指標の限界に対処する。
Denoising U-Netの注目層に特徴をアライメントすることで、DiffSimは外観とスタイルの類似性の両方を評価し、人間の視覚的嗜好に優れたアライメントを示す。
さらに,Sref と IP のベンチマークを導入し,視覚的類似性をそれぞれスタイルと事例のレベルで評価する。
複数のベンチマークにわたる総合的な評価は、DiffSimが最先端のパフォーマンスを達成し、生成モデルにおける視覚的コヒーレンスを測定するための堅牢なツールを提供することを示している。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Foundation Models Boost Low-Level Perceptual Similarity Metrics [6.226609932118124]
ディープラーニングアプローチを用いたフルリファレンス画像品質評価(FR-IQA)では、歪んだ画像と参照画像との知覚的類似度スコアは、通常、事前訓練されたCNNまたはより最近ではトランスフォーマーネットワークから抽出された特徴間の距離測定として計算される。
この研究は、低レベルの知覚的類似度指標の設計において、これまでほとんど研究されていないこれらの基礎モデルの中間的特徴を活用する可能性を探るものである。
論文 参考訳(メタデータ) (2024-09-11T22:32:12Z) - On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - COSE: A Consistency-Sensitivity Metric for Saliency on Image
Classification [21.3855970055692]
本稿では,画像分類タスクにおいて,視覚の先行値を用いてサリエンシ手法の性能を評価する指標について述べる。
しかし,ほとんどの手法では,畳み込みモデルよりもトランスフォーマーモデルの方がよく説明できる。
論文 参考訳(メタデータ) (2023-09-20T01:06:44Z) - CorrEmbed: Evaluating Pre-trained Model Image Similarity Efficacy with a
Novel Metric [6.904776368895614]
我々は、CorrEmbedという新しいアプローチを用いて、事前訓練されたコンピュータビジョンモデルから画像埋め込みの有効性を評価する。
本研究では,画像埋め込みにおける距離と人為的タグベクトルにおける距離との相関を計算した。
また,このパターンからの逸脱を同定し,異なるモデルが高レベル画像の特徴をどのように捉えているかについての洞察を与える。
論文 参考訳(メタデータ) (2023-08-30T16:23:07Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Duality-Induced Regularizer for Semantic Matching Knowledge Graph
Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。
実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2022-03-24T09:24:39Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。