論文の概要: SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
- arxiv url: http://arxiv.org/abs/2305.15367v2
- Date: Fri, 24 Jan 2025 19:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:29.612140
- Title: SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
- Title(参考訳): SAMScore:画像翻訳評価のためのコンテンツ構造類似度指標
- Authors: Yunxiang Li, Meixu Chen, Kai Wang, Jun Ma, Alan C. Bovik, You Zhang,
- Abstract要約: 画像翻訳モデルの忠実度を評価するための一般的なコンテンツ構造類似度指標であるSAMScoreを紹介する。
SAMScoreは最近のSAM(High- Performance Segment Anything Model)に基づいている。
- 参考スコア(独自算出の注目度): 32.64030790141217
- License:
- Abstract: Image translation has wide applications, such as style transfer and modality conversion, usually aiming to generate images having both high degrees of realism and faithfulness. These problems remain difficult, especially when it is important to preserve content structures. Traditional image-level similarity metrics are of limited use, since the content structures of an image are high-level, and not strongly governed by pixel-wise faithfulness to an original image. To fill this gap, we introduce SAMScore, a generic content structural similarity metric for evaluating the faithfulness of image translation models. SAMScore is based on the recent high-performance Segment Anything Model (SAM), which allows content similarity comparisons with standout accuracy. We applied SAMScore on 19 image translation tasks, and found that it is able to outperform all other competitive metrics on all tasks. We envision that SAMScore will prove to be a valuable tool that will help to drive the vibrant field of image translation, by allowing for more precise evaluations of new and evolving translation models. The code is available at https://github.com/Kent0n-Li/SAMScore.
- Abstract(参考訳): 画像翻訳には、スタイル変換やモダリティ変換といった幅広い応用があり、通常、高いリアリズムと忠実さの両方のイメージを生成することを目的としている。
これらの問題は、特にコンテンツ構造を保存することが重要である場合になお困難である。
従来の画像レベルの類似度指標は、画像のコンテンツ構造が高レベルであり、元の画像に対するピクセルワイドの忠実さに強く依存していないため、限られた用途である。
このギャップを埋めるために,画像翻訳モデルの忠実度を評価する汎用コンテンツ構造類似度指標であるSAMScoreを紹介する。
SAMScoreは最近のSAM(High- Performance Segment Anything Model)に基づいている。
19のイメージ翻訳タスクにSAMScoreを適用した結果,すべてのタスクにおいて,他の競合指標よりも優れた結果が得られることがわかった。
我々は,SAMScoreが画像翻訳の活発な分野を推し進める上で有用なツールであることを実証し,新たな翻訳モデルのより正確な評価を可能にすることを期待する。
コードはhttps://github.com/Kent0n-Li/SAMScoreで公開されている。
関連論文リスト
- Unpaired Image-to-Image Translation with Content Preserving Perspective: A Review [1.1243043117244755]
画像画像変換(I2I)は、ソースコンテンツを保存しながら、ソースドメインからターゲットドメインに画像を変換する。
翻訳過程におけるソース画像の内容の保存度は、問題や意図した用途に応じて異なることができる。
画像と画像の翻訳の分野における様々なタスクを,完全コンテンツ保存,部分コンテンツ保存,非コンテンツ保存の3つのカテゴリに分けた。
論文 参考訳(メタデータ) (2025-02-11T20:09:29Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z) - StyleFlow For Content-Fixed Image to Image Translation [15.441136520005578]
StyleFlowは、正規化フローと新しいStyle-Aware Normalization (SAN)モジュールで構成される新しいI2I翻訳モデルである。
我々のモデルは画像誘導翻訳とマルチモーダル合成の両方をサポートしている。
論文 参考訳(メタデータ) (2022-07-05T09:40:03Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - InstaFormer: Instance-Aware Image-to-Image Translation with Transformer [28.47907036830384]
InstaFormer という,画像から画像への変換を例に,Transformer ベースの新しいネットワークアーキテクチャを提案する。
我々のフレームワークはオブジェクトインスタンスとグローバルイメージのインタラクションを学習できるので、インスタンス認識が向上します。
論文 参考訳(メタデータ) (2022-03-30T12:30:22Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。