論文の概要: SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
- arxiv url: http://arxiv.org/abs/2305.15367v2
- Date: Fri, 24 Jan 2025 19:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:29.612140
- Title: SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
- Title(参考訳): SAMScore:画像翻訳評価のためのコンテンツ構造類似度指標
- Authors: Yunxiang Li, Meixu Chen, Kai Wang, Jun Ma, Alan C. Bovik, You Zhang,
- Abstract要約: 画像翻訳モデルの忠実度を評価するための一般的なコンテンツ構造類似度指標であるSAMScoreを紹介する。
SAMScoreは最近のSAM(High- Performance Segment Anything Model)に基づいている。
- 参考スコア(独自算出の注目度): 32.64030790141217
- License:
- Abstract: Image translation has wide applications, such as style transfer and modality conversion, usually aiming to generate images having both high degrees of realism and faithfulness. These problems remain difficult, especially when it is important to preserve content structures. Traditional image-level similarity metrics are of limited use, since the content structures of an image are high-level, and not strongly governed by pixel-wise faithfulness to an original image. To fill this gap, we introduce SAMScore, a generic content structural similarity metric for evaluating the faithfulness of image translation models. SAMScore is based on the recent high-performance Segment Anything Model (SAM), which allows content similarity comparisons with standout accuracy. We applied SAMScore on 19 image translation tasks, and found that it is able to outperform all other competitive metrics on all tasks. We envision that SAMScore will prove to be a valuable tool that will help to drive the vibrant field of image translation, by allowing for more precise evaluations of new and evolving translation models. The code is available at https://github.com/Kent0n-Li/SAMScore.
- Abstract(参考訳): 画像翻訳には、スタイル変換やモダリティ変換といった幅広い応用があり、通常、高いリアリズムと忠実さの両方のイメージを生成することを目的としている。
これらの問題は、特にコンテンツ構造を保存することが重要である場合になお困難である。
従来の画像レベルの類似度指標は、画像のコンテンツ構造が高レベルであり、元の画像に対するピクセルワイドの忠実さに強く依存していないため、限られた用途である。
このギャップを埋めるために,画像翻訳モデルの忠実度を評価する汎用コンテンツ構造類似度指標であるSAMScoreを紹介する。
SAMScoreは最近のSAM(High- Performance Segment Anything Model)に基づいている。
19のイメージ翻訳タスクにSAMScoreを適用した結果,すべてのタスクにおいて,他の競合指標よりも優れた結果が得られることがわかった。
我々は,SAMScoreが画像翻訳の活発な分野を推し進める上で有用なツールであることを実証し,新たな翻訳モデルのより正確な評価を可能にすることを期待する。
コードはhttps://github.com/Kent0n-Li/SAMScoreで公開されている。
関連論文リスト
- SAM-I2I: Unleash the Power of Segment Anything Model for Medical Image Translation [0.9626666671366836]
SAM-I2Iは,Segment Anything Model 2 (SAM2) に基づく新しい画像から画像への変換フレームワークである。
マルチコントラストMRIデータセットを用いた実験により、SAM-I2Iは最先端の手法より優れており、より効率的かつ正確な医用画像翻訳を提供することが示された。
論文 参考訳(メタデータ) (2024-11-13T03:30:10Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - Semi-Supervised Image-to-Image Translation using Latent Space Mapping [37.232496213047845]
半教師付き画像翻訳のための一般的なフレームワークを提案する。
私たちの一番の考え方は、画像空間ではなく、潜在機能空間の翻訳を学ぶことです。
低次元の特徴空間のおかげで、所望の写像関数を見つけるのが容易である。
論文 参考訳(メタデータ) (2022-03-29T05:14:26Z) - Hierarchical Similarity Learning for Language-based Product Image
Retrieval [40.83290730640458]
本稿では,クロスモーダル類似度測定に着目し,新しい階層的類似度学習ネットワークを提案する。
大規模製品検索データセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-18T14:23:16Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。