論文の概要: How to Evaluate Semantic Communications for Images with ViTScore Metric?
- arxiv url: http://arxiv.org/abs/2309.04891v2
- Date: Sun, 21 Apr 2024 03:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:52:28.758616
- Title: How to Evaluate Semantic Communications for Images with ViTScore Metric?
- Title(参考訳): ViTScore Metricを用いた画像のセマンティックコミュニケーションの評価法
- Authors: Tingting Zhu, Bo Peng, Jifan Liang, Tingchen Han, Hai Wan, Jingqiao Fu, Junjie Chen,
- Abstract要約: 視覚変換器スコア(ViTScore)という画像意味的類似性を評価するための新しい指標を提案する。
ViTScoreには対称性、有界性、正規化の3つの重要な特性があり、画像測定に便利で直感的である。
画像のセマンティックな類似性を評価する上で,ViTScoreは堅牢で効率的であることを示す。
- 参考スコア(独自算出の注目度): 18.657768058678375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic communications (SC) have been expected to be a new paradigm shifting to catalyze the next generation communication, whose main concerns shift from accurate bit transmission to effective semantic information exchange in communications. However, the previous and widely-used metrics for images are not applicable to evaluate the image semantic similarity in SC. Classical metrics to measure the similarity between two images usually rely on the pixel level or the structural level, such as the PSNR and the MS-SSIM. Straightforwardly using some tailored metrics based on deep-learning methods in CV community, such as the LPIPS, is infeasible for SC. To tackle this, inspired by BERTScore in NLP community, we propose a novel metric for evaluating image semantic similarity, named Vision Transformer Score (ViTScore). We prove theoretically that ViTScore has 3 important properties, including symmetry, boundedness, and normalization, which make ViTScore convenient and intuitive for image measurement. To evaluate the performance of ViTScore, we compare ViTScore with 3 typical metrics (PSNR, MS-SSIM, and LPIPS) through 4 classes of experiments: (i) correlation with BERTScore through evaluation of image caption downstream CV task, (ii) evaluation in classical image communications, (iii) evaluation in image semantic communication systems, and (iv) evaluation in image semantic communication systems with semantic attack. Experimental results demonstrate that ViTScore is robust and efficient in evaluating the semantic similarity of images. Particularly, ViTScore outperforms the other 3 typical metrics in evaluating the image semantic changes by semantic attack, such as image inverse with Generative Adversarial Networks (GANs). This indicates that ViTScore is an effective performance metric when deployed in SC scenarios.
- Abstract(参考訳): セマンティック通信 (SC) は, 通信における正確なビット伝送から効果的なセマンティック情報交換へと, 次世代通信を触媒する新たなパラダイムシフトとして期待されている。
しかし、SCのイメージセマンティックな類似性を評価するには、以前の画像のメトリクスと広く使われているメトリクスは適用できない。
2つの画像間の類似度を測定する古典的な指標は、通常PSNRやMS-SSIMのようなピクセルレベルや構造レベルに依存している。
LPIPS のような CV コミュニティの深層学習手法をベースとした改善されたメトリクスをストレートフォワードで使用することは,SC では不可能である。
NLPコミュニティのBERTScoreにインスパイアされたこの問題に対処するため、視覚変換スコア(ViTScore)と呼ばれる画像意味的類似性を評価するための新しい指標を提案する。
理論的には、ViTScoreには対称性、有界性、正規化の3つの重要な性質がある。
ViTScoreの性能を評価するために、ViTScoreと3つの典型的なメトリクス(PSNR、MS-SSIM、LPIPS)を4種類の実験で比較した。
(i)下流CVタスクの画像キャプション評価によるBERTScoreとの相関
(ii)古典的画像通信における評価
三 画像意味コミュニケーションシステムにおける評価、及び
(4)セマンティックアタックを用いた画像意味コミュニケーションシステムにおける評価
実験結果から,ViTScoreは画像の意味的類似性を評価する上で,堅牢で効率的であることが示された。
特に、ViTScoreは、GAN(Generative Adversarial Networks)による画像逆転のようなセマンティックアタックによる画像意味の変化を評価する際に、他の3つの典型的な指標よりも優れています。
これは、ViTScoreがSCシナリオにデプロイする際の効果的なパフォーマンス指標であることを示している。
関連論文リスト
- Evaluating Image Caption via Cycle-consistent Text-to-Image Generation [24.455344211552692]
画像キャプションモデルのための参照不要自動評価指標であるCAMScoreを提案する。
上記のモダリティギャップを回避するため、CAMScoreはテキスト・ツー・イメージ・モデルを用いてキャプションから画像を生成し、生成した画像を元の画像に対して評価する。
実験結果から,CAMScoreは既存の基準ベースおよび基準フリー指標と比較して,人間の判断との相関が良好であることがわかった。
論文 参考訳(メタデータ) (2025-01-07T06:35:34Z) - Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
Vision Transformers (ViT) はコンピュータビジョンの分野で新たな研究の波をもたらした。
本稿では,航空画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
本稿では,新たな重み付き損失関数がCNNモデルの性能をViTを用いたトランスファー学習と比較して著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - CSIM: A Copula-based similarity index sensitive to local changes for Image quality assessment [2.3874115898130865]
画像類似度メトリクスは、画像処理、コンピュータビジョン、機械学習で使用されるため、コンピュータビジョンアプリケーションにおいて重要な役割を果たす。
PSNR、MSE、SSIM、ISSM、FSIMといった既存のメトリクスは、画像の小さな変更に対する速度、複雑さ、感度のいずれにおいても制限に直面していることが多い。
本稿では,画像の微妙な変化に敏感でありながらリアルタイムに組み合わせた新しい画像類似度指標CSIMについて検討する。
論文 参考訳(メタデータ) (2024-10-02T10:46:05Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Semantic Similarity Score for Measuring Visual Similarity at Semantic Level [5.867765921443141]
シーングラフ生成とグラフマッチングに基づくセマンティック類似度スコア(Semantic similarity Score)のセマンティック評価指標を提案する。
このメトリクスは、画像の意味レベル情報のセマンティックレベルの違いを測定することができ、視覚的意味コミュニケーションシステムにおける評価に使用できる。
論文 参考訳(メタデータ) (2024-06-06T08:51:26Z) - CrossScore: Towards Multi-View Image Evaluation and Scoring [24.853612457257697]
相互参照画像品質評価法は画像評価景観のギャップを埋める。
本手法は,地上の真理参照を必要とせず,精度の高い画像品質評価を可能にする。
論文 参考訳(メタデータ) (2024-04-22T17:59:36Z) - LipSim: A Provably Robust Perceptual Similarity Metric [56.03417732498859]
敵攻撃に対するViTベースの特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を示す。
次に、証明可能な保証とともに、LipSimと呼ばれる堅牢な知覚的類似度メトリックをトレーニングするためのフレームワークを提案する。
LipSimは、各データポイント周辺の保護された領域と、$ell$ ball内のすべての摂動の証明書を提供する。
論文 参考訳(メタデータ) (2023-10-27T16:59:51Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。