Fugu-MT 論文翻訳(概要): SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation

論文の概要: SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation

arxiv url: http://arxiv.org/abs/2305.15367v2
Date: Fri, 24 Jan 2025 19:51:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.093353
Title: SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
Title（参考訳）: SAMScore:画像翻訳評価のためのコンテンツ構造類似度指標
Authors: Yunxiang Li, Meixu Chen, Kai Wang, Jun Ma, Alan C. Bovik, You Zhang,
Abstract要約: 画像翻訳モデルの忠実度を評価するための一般的なコンテンツ構造類似度指標であるSAMScoreを紹介する。 SAMScoreは最近のSAM(High- Performance Segment Anything Model)に基づいている。
参考スコア（独自算出の注目度）: 32.64030790141217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image translation has wide applications, such as style transfer and modality conversion, usually aiming to generate images having both high degrees of realism and faithfulness. These problems remain difficult, especially when it is important to preserve content structures. Traditional image-level similarity metrics are of limited use, since the content structures of an image are high-level, and not strongly governed by pixel-wise faithfulness to an original image. To fill this gap, we introduce SAMScore, a generic content structural similarity metric for evaluating the faithfulness of image translation models. SAMScore is based on the recent high-performance Segment Anything Model (SAM), which allows content similarity comparisons with standout accuracy. We applied SAMScore on 19 image translation tasks, and found that it is able to outperform all other competitive metrics on all tasks. We envision that SAMScore will prove to be a valuable tool that will help to drive the vibrant field of image translation, by allowing for more precise evaluations of new and evolving translation models. The code is available at https://github.com/Kent0n-Li/SAMScore.
Abstract（参考訳）: 画像翻訳には、スタイル変換やモダリティ変換といった幅広い応用があり、通常、高いリアリズムと忠実さの両方のイメージを生成することを目的としている。これらの問題は、特にコンテンツ構造を保存することが重要である場合になお困難である。従来の画像レベルの類似度指標は、画像のコンテンツ構造が高レベルであり、元の画像に対するピクセルワイドの忠実さに強く依存していないため、限られた用途である。このギャップを埋めるために,画像翻訳モデルの忠実度を評価する汎用コンテンツ構造類似度指標であるSAMScoreを紹介する。 SAMScoreは最近のSAM(High- Performance Segment Anything Model)に基づいている。 19のイメージ翻訳タスクにSAMScoreを適用した結果,すべてのタスクにおいて,他の競合指標よりも優れた結果が得られることがわかった。我々は,SAMScoreが画像翻訳の活発な分野を推し進める上で有用なツールであることを実証し,新たな翻訳モデルのより正確な評価を可能にすることを期待する。コードはhttps://github.com/Kent0n-Li/SAMScoreで公開されている。

関連論文リスト

Unpaired Image-to-Image Translation with Content Preserving Perspective: A Review [1.1243043117244755]
画像画像変換(I2I)は、ソースコンテンツを保存しながら、ソースドメインからターゲットドメインに画像を変換する。翻訳過程におけるソース画像の内容の保存度は、問題や意図した用途に応じて異なることができる。画像と画像の翻訳の分野における様々なタスクを,完全コンテンツ保存,部分コンテンツ保存,非コンテンツ保存の3つのカテゴリに分けた。
論文参考訳（メタデータ） (2025-02-11T20:09:29Z)
SAM-I2I: Unleash the Power of Segment Anything Model for Medical Image Translation [0.9626666671366836]
SAM-I2Iは,Segment Anything Model 2 (SAM2) に基づく新しい画像から画像への変換フレームワークである。マルチコントラストMRIデータセットを用いた実験により、SAM-I2Iは最先端の手法より優れており、より効率的かつ正確な医用画像翻訳を提供することが示された。
論文参考訳（メタデータ） (2024-11-13T03:30:10Z)
An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文参考訳（メタデータ） (2024-04-01T17:08:50Z)
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文参考訳（メタデータ） (2023-08-08T15:43:59Z)
Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文参考訳（メタデータ） (2022-10-27T07:47:47Z)
Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文参考訳（メタデータ） (2022-10-21T17:10:49Z)
PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。 PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-07-09T10:35:44Z)
StyleFlow For Content-Fixed Image to Image Translation [15.441136520005578]
StyleFlowは、正規化フローと新しいStyle-Aware Normalization (SAN)モジュールで構成される新しいI2I翻訳モデルである。我々のモデルは画像誘導翻訳とマルチモーダル合成の両方をサポートしている。
論文参考訳（メタデータ） (2022-07-05T09:40:03Z)
Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文参考訳（メタデータ） (2022-05-09T17:51:44Z)
Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-07T17:59:23Z)
InstaFormer: Instance-Aware Image-to-Image Translation with Transformer [28.47907036830384]
InstaFormer という,画像から画像への変換を例に,Transformer ベースの新しいネットワークアーキテクチャを提案する。我々のフレームワークはオブジェクトインスタンスとグローバルイメージのインタラクションを学習できるので、インスタンス認識が向上します。
論文参考訳（メタデータ） (2022-03-30T12:30:22Z)
Semi-Supervised Image-to-Image Translation using Latent Space Mapping [37.232496213047845]
半教師付き画像翻訳のための一般的なフレームワークを提案する。私たちの一番の考え方は、画像空間ではなく、潜在機能空間の翻訳を学ぶことです。低次元の特徴空間のおかげで、所望の写像関数を見つけるのが容易である。
論文参考訳（メタデータ） (2022-03-29T05:14:26Z)
Hierarchical Similarity Learning for Language-based Product Image Retrieval [40.83290730640458]
本稿では,クロスモーダル類似度測定に着目し,新しい階層的類似度学習ネットワークを提案する。大規模製品検索データセットの実験により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-02-18T14:23:16Z)
Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文参考訳（メタデータ） (2020-12-01T17:18:58Z)
Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2 Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文参考訳（メタデータ） (2020-10-12T13:51:40Z)
Cross-domain Correspondence Learning for Exemplar-based Image Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-04-12T09:10:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。