論文の概要: How to Evaluate Semantic Communications for Images with ViTScore Metric?
- arxiv url: http://arxiv.org/abs/2309.04891v1
- Date: Sat, 9 Sep 2023 23:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:50:29.281770
- Title: How to Evaluate Semantic Communications for Images with ViTScore Metric?
- Title(参考訳): ViTScore Metricを用いた画像のセマンティックコミュニケーションの評価法
- Authors: Tingting Zhu, Bo Peng, Jifan Liang, Tingchen Han, Hai Wan, Jingqiao
Fu, and Junjie Chen
- Abstract要約: 視覚変換器スコア(ViTScore)という画像意味的類似性を評価するための新しい指標を提案する。
ViTScoreには対称性、有界性、正規化の3つの重要な特性があり、画像測定に便利で直感的である。
実験により、ViTScoreは他の3つの典型的な指標よりも画像の意味的類似性を評価することができることが示された。
- 参考スコア(独自算出の注目度): 18.657768058678375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic communications (SC) have been expected to be a new paradigm shifting
to catalyze the next generation communication, whose main concerns shift from
accurate bit transmission to effective semantic information exchange in
communications. However, the previous and widely-used metrics for images are
not applicable to evaluate the image semantic similarity in SC. Classical
metrics to measure the similarity between two images usually rely on the pixel
level or the structural level, such as the PSNR and the MS-SSIM.
Straightforwardly using some tailored metrics based on deep-learning methods in
CV community, such as the LPIPS, is infeasible for SC. To tackle this, inspired
by BERTScore in NLP community, we propose a novel metric for evaluating image
semantic similarity, named Vision Transformer Score (ViTScore). We prove
theoretically that ViTScore has 3 important properties, including symmetry,
boundedness, and normalization, which make ViTScore convenient and intuitive
for image measurement. To evaluate the performance of ViTScore, we compare
ViTScore with 3 typical metrics (PSNR, MS-SSIM, and LPIPS) through 5 classes of
experiments. Experimental results demonstrate that ViTScore can better evaluate
the image semantic similarity than the other 3 typical metrics, which indicates
that ViTScore is an effective performance metric when deployed in SC scenarios.
- Abstract(参考訳): セマンティック通信 (SC) は, 通信における正確なビット伝送から効果的なセマンティック情報交換へと, 次世代通信を触媒する新たなパラダイムシフトとして期待されている。
しかし,scの画像意味的類似性の評価には,従来および広く用いられてきた画像の指標は適用できない。
2つの画像間の類似度を測定する古典的なメトリクスは、通常PSNRやMS-SSIMのようなピクセルレベルや構造レベルに依存している。
LPIPS のような CV コミュニティの深層学習手法をベースとした改善されたメトリクスをストレートフォワードで使用することは,SC では不可能である。
そこで,nlpコミュニティのbertscoreに触発され,視覚トランスフォーマースコア(vitscore)という画像意味の類似性を評価するための新しい指標を提案する。
理論的には,vitscoreには対称性,境界性,正規化という3つの重要な特性があり,vitscoreは画像計測に便利で直感的である。
ViTScoreの性能を評価するために,ViTScoreとPSNR,MS-SSIM,LPIPSの3つの典型的な指標を5種類の実験で比較した。
実験の結果、ViTScoreは他の3つの典型的なメトリクスよりもイメージセマンティックな類似性を評価することができることが示され、これは、ViTScoreがSCシナリオにデプロイする際の効果的なパフォーマンス指標であることを示している。
関連論文リスト
- LipSim: A Provably Robust Perceptual Similarity Metric [59.374700828218955]
敵攻撃に対するViTベースの特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を示す。
次に、証明可能な保証とともに、LipSimと呼ばれる堅牢な知覚的類似度メトリックをトレーニングするためのフレームワークを提案する。
LipSimは、各データポイント周辺の保護された領域と、$ell$ ball内のすべての摂動の証明書を提供する。
論文 参考訳(メタデータ) (2023-10-27T16:59:51Z) - SimMatchV2: Semi-Supervised Learning with Graph Consistency [53.31681712576555]
半教師付き学習アルゴリズムSimMatchV2を導入する。
グラフの観点からラベル付きデータとラベルなしデータの間の様々な一貫性の規則化を定式化する。
SimMatchV2は、複数の半教師付き学習ベンチマークで検証されている。
論文 参考訳(メタデータ) (2023-08-13T05:56:36Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - Deep Perceptual Similarity is Adaptable to Ambiguous Contexts [1.6217405839281338]
画像類似性の概念は曖昧であり、ある文脈では似ていて、別の文脈では似ていない。
この研究は、与えられたコンテキストに適応する深層知覚類似度(DPS)メトリクスの能力について考察する。
適応されたメトリクスは知覚的類似性データセットで評価され、ランキングへの適応が以前のパフォーマンスに影響するかどうかを評価する。
論文 参考訳(メタデータ) (2023-04-05T07:31:44Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Determining Image similarity with Quasi-Euclidean Metric [0.0]
擬似ユークリッド計量を画像類似度尺度として評価し,SSIMやユークリッド計量といった既存の標準手法とどのように一致しているかを分析する。
いくつかのケースでは、我々の方法論は顕著な性能を予測しており、我々の実装が類似性を認識するための一歩であることを証明していることも興味深い。
論文 参考訳(メタデータ) (2020-06-25T18:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。