論文の概要: How to Evaluate Semantic Communications for Images with ViTScore Metric?
- arxiv url: http://arxiv.org/abs/2309.04891v2
- Date: Sun, 21 Apr 2024 03:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:52:28.758616
- Title: How to Evaluate Semantic Communications for Images with ViTScore Metric?
- Title(参考訳): ViTScore Metricを用いた画像のセマンティックコミュニケーションの評価法
- Authors: Tingting Zhu, Bo Peng, Jifan Liang, Tingchen Han, Hai Wan, Jingqiao Fu, Junjie Chen,
- Abstract要約: 視覚変換器スコア(ViTScore)という画像意味的類似性を評価するための新しい指標を提案する。
ViTScoreには対称性、有界性、正規化の3つの重要な特性があり、画像測定に便利で直感的である。
画像のセマンティックな類似性を評価する上で,ViTScoreは堅牢で効率的であることを示す。
- 参考スコア(独自算出の注目度): 18.657768058678375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic communications (SC) have been expected to be a new paradigm shifting to catalyze the next generation communication, whose main concerns shift from accurate bit transmission to effective semantic information exchange in communications. However, the previous and widely-used metrics for images are not applicable to evaluate the image semantic similarity in SC. Classical metrics to measure the similarity between two images usually rely on the pixel level or the structural level, such as the PSNR and the MS-SSIM. Straightforwardly using some tailored metrics based on deep-learning methods in CV community, such as the LPIPS, is infeasible for SC. To tackle this, inspired by BERTScore in NLP community, we propose a novel metric for evaluating image semantic similarity, named Vision Transformer Score (ViTScore). We prove theoretically that ViTScore has 3 important properties, including symmetry, boundedness, and normalization, which make ViTScore convenient and intuitive for image measurement. To evaluate the performance of ViTScore, we compare ViTScore with 3 typical metrics (PSNR, MS-SSIM, and LPIPS) through 4 classes of experiments: (i) correlation with BERTScore through evaluation of image caption downstream CV task, (ii) evaluation in classical image communications, (iii) evaluation in image semantic communication systems, and (iv) evaluation in image semantic communication systems with semantic attack. Experimental results demonstrate that ViTScore is robust and efficient in evaluating the semantic similarity of images. Particularly, ViTScore outperforms the other 3 typical metrics in evaluating the image semantic changes by semantic attack, such as image inverse with Generative Adversarial Networks (GANs). This indicates that ViTScore is an effective performance metric when deployed in SC scenarios.
- Abstract(参考訳): セマンティック通信 (SC) は, 通信における正確なビット伝送から効果的なセマンティック情報交換へと, 次世代通信を触媒する新たなパラダイムシフトとして期待されている。
しかし、SCのイメージセマンティックな類似性を評価するには、以前の画像のメトリクスと広く使われているメトリクスは適用できない。
2つの画像間の類似度を測定する古典的な指標は、通常PSNRやMS-SSIMのようなピクセルレベルや構造レベルに依存している。
LPIPS のような CV コミュニティの深層学習手法をベースとした改善されたメトリクスをストレートフォワードで使用することは,SC では不可能である。
NLPコミュニティのBERTScoreにインスパイアされたこの問題に対処するため、視覚変換スコア(ViTScore)と呼ばれる画像意味的類似性を評価するための新しい指標を提案する。
理論的には、ViTScoreには対称性、有界性、正規化の3つの重要な性質がある。
ViTScoreの性能を評価するために、ViTScoreと3つの典型的なメトリクス(PSNR、MS-SSIM、LPIPS)を4種類の実験で比較した。
(i)下流CVタスクの画像キャプション評価によるBERTScoreとの相関
(ii)古典的画像通信における評価
三 画像意味コミュニケーションシステムにおける評価、及び
(4)セマンティックアタックを用いた画像意味コミュニケーションシステムにおける評価
実験結果から,ViTScoreは画像の意味的類似性を評価する上で,堅牢で効率的であることが示された。
特に、ViTScoreは、GAN(Generative Adversarial Networks)による画像逆転のようなセマンティックアタックによる画像意味の変化を評価する際に、他の3つの典型的な指標よりも優れています。
これは、ViTScoreがSCシナリオにデプロイする際の効果的なパフォーマンス指標であることを示している。
関連論文リスト
- CrossScore: Towards Multi-View Image Evaluation and Scoring [23.3614269740614]
相互参照画像品質評価法は画像評価景観のギャップを埋める。
本手法は,地上の真理参照を必要とせず,精度の高い画像品質評価を可能にする。
論文 参考訳(メタデータ) (2024-04-22T17:59:36Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScore (TS2) はプロンプトとセットの誤画像を含む意味的誤りグラフのキュレートされた集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - LipSim: A Provably Robust Perceptual Similarity Metric [56.03417732498859]
敵攻撃に対するViTベースの特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を示す。
次に、証明可能な保証とともに、LipSimと呼ばれる堅牢な知覚的類似度メトリックをトレーニングするためのフレームワークを提案する。
LipSimは、各データポイント周辺の保護された領域と、$ell$ ball内のすべての摂動の証明書を提供する。
論文 参考訳(メタデータ) (2023-10-27T16:59:51Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。