論文の概要: A Novel Image Similarity Metric for Scene Composition Structure
- arxiv url: http://arxiv.org/abs/2508.05037v2
- Date: Tue, 19 Aug 2025 20:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 14:45:44.939546
- Title: A Novel Image Similarity Metric for Scene Composition Structure
- Title(参考訳): シーン構成構造のための新しい画像類似度指標
- Authors: Md Redwanul Haque, Manzur Murshed, Manoranjan Paul, Tsz-Kwan Lee,
- Abstract要約: 生成AIモデルにとって重要な関心事は、画像の基盤となるシーン構成構造(SCS)の保存である。
従来の画像類似度指標は、しばしばSCSを評価するのに不足する。
SCS 類似度指数測定(SCSSIM)は,SCS の保存を定量化するための新しい,分析的,トレーニング不要な指標である。
- 参考スコア(独自算出の注目度): 6.8434965728935335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative AI models necessitates novel methods for evaluating image quality that extend beyond human perception. A critical concern for these models is the preservation of an image's underlying Scene Composition Structure (SCS), which defines the geometric relationships among objects and the background, their relative positions, sizes, orientations, etc. Maintaining SCS integrity is paramount for ensuring faithful and structurally accurate GenAI outputs. Traditional image similarity metrics often fall short in assessing SCS. Pixel-level approaches are overly sensitive to minor visual noise, while perception-based metrics prioritize human aesthetic appeal, neither adequately capturing structural fidelity. Furthermore, recent neural-network-based metrics introduce training overheads and potential generalization issues. We introduce the SCS Similarity Index Measure (SCSSIM), a novel, analytical, and training-free metric that quantifies SCS preservation by exploiting statistical measures derived from the Cuboidal hierarchical partitioning of images, robustly capturing non-object-based structural relationships. Our experiments demonstrate SCSSIM's high invariance to non-compositional distortions, accurately reflecting unchanged SCS. Conversely, it shows a strong monotonic decrease for compositional distortions, precisely indicating when SCS has been altered. Compared to existing metrics, SCSSIM exhibits superior properties for structural evaluation, making it an invaluable tool for developing and evaluating generative models, ensuring the integrity of scene composition.
- Abstract(参考訳): 生成AIモデルの急速な進歩は、人間の知覚を超えた画像品質を評価する新しい方法を必要とする。
これらのモデルにとって重要な関心事は、画像の基本となるシーン構成構造(SCS)の保存である。
SCSの完全性を維持することは、忠実で構造的に正確なGenAI出力を保証する上で最重要である。
従来の画像類似度指標は、しばしばSCSを評価するのに不足する。
ピクセルレベルのアプローチは小さな視覚ノイズに過度に敏感であり、知覚に基づくメトリクスは人間の美的魅力を優先する。
さらに、最近のニューラルネットワークベースのメトリクスでは、トレーニングのオーバーヘッドと潜在的な一般化の問題が導入されている。
SCS類似度指数測定(SCSSIM)は,画像の立方体階層的分割から導かれる統計的測度を利用して,非対象構造関係を頑健に把握し,SCSの保存を定量化する新しい,分析的,訓練不要な指標である。
実験では,SCSSIMの非構成歪みに対する高い不変性を示し,SCSを正確に反映した。
逆に、SCSがいつ変化したかを正確に示し、組成歪みに対して強い単調性低下を示す。
既存の指標と比較すると、SCSSIMは構造評価に優れた特性を示しており、シーン構成の整合性を確保し、生成モデルを開発し評価するための貴重なツールである。
関連論文リスト
- Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。
本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。
また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文 参考訳(メタデータ) (2025-06-29T22:41:27Z) - Image Intrinsic Scale Assessment: Bridging the Gap Between Quality and Resolution [4.896425819316727]
画像内在性尺度 (IIS) は,画像が最も知覚される品質を示す最大規模の尺度である。
人的判断に基づいてIISを主観的に測定・予測する画像固有スケールアセスメント(IISA)タスクを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:54:55Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Exploiting Self-Supervised Constraints in Image Super-Resolution [72.35265021054471]
本稿では,SSC-SRと呼ばれる単一画像超解像のための新しい自己監督制約を提案する。
SSC-SRは、安定性を高めるために指数移動平均によって更新された二重非対称パラダイムとターゲットモデルを用いることで、画像の複雑さのばらつきに一意に対処する。
SSC-SRフレームワークはさまざまなベンチマークデータセットに対して,EDSR平均0.1dB,SwinIR平均0.06dBの大幅な拡張を実現している。
論文 参考訳(メタデータ) (2024-03-30T06:18:50Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Bridging Component Learning with Degradation Modelling for Blind Image
Super-Resolution [69.11604249813304]
視覚障害者のためのコンポーネント分解・協調最適化ネットワーク(CDCN)を提案する。
CDCNは入力LR画像を特徴空間の構造と詳細成分に分解する。
本稿では,HR画像の細部と構造復元過程を協調的に監督する,劣化駆動型学習戦略を提案する。
論文 参考訳(メタデータ) (2022-12-03T14:53:56Z) - Textural-Structural Joint Learning for No-Reference Super-Resolution
Image Quality Assessment [59.91741119995321]
我々は、TSNetと呼ばれる品質予測のためのテキスト情報と構造情報を共同で探索するデュアルストリームネットワークを開発した。
画像の重要な領域に注意を払っている人間の視覚システム(HVS)を模倣することにより、視覚に敏感な領域をより区別しやすくするための空間的注意機構を開発する。
実験の結果,提案したTSNetは現状のIQA法よりも視覚的品質を正確に予測し,人間の視点との整合性を示した。
論文 参考訳(メタデータ) (2022-05-27T09:20:06Z) - Locally Adaptive Structure and Texture Similarity for Image Quality
Assessment [33.58928017067797]
フル参照画像品質評価(IQA)のための局所適応構造とテクスチャ類似度指標について述べる。
具体的には、異なるスケールでテクスチャ領域をローカライズするために、分散指数と呼ばれる単一の統計的特徴に依存する。
その結果、A-DISTSは局所的な画像コンテンツに適応し、教師付きトレーニングのための高価な人間の知覚スコアを欠いている。
論文 参考訳(メタデータ) (2021-10-16T09:19:56Z) - Image Super-Resolution Quality Assessment: Structural Fidelity Versus
Statistical Naturalness [36.022063424485324]
単一画像スーパーリゾリューション(SISR)アルゴリズムは、低解像度(LR)のものと高リゾリューション(HR)画像を再構築する。
構造的忠実度と統計的自然度という2次元(2次元)空間におけるSISR生成画像の品質を評価する。
簡単な局所構造的忠実度とグローバルな統計的自然度測定の線形結合により、SISR画像の品質を驚くほど正確に予測できることがわかった。
論文 参考訳(メタデータ) (2021-05-15T04:31:48Z) - SI-Score: An image dataset for fine-grained analysis of robustness to
object location, rotation and size [95.00667357120442]
オブジェクトの位置、回転、サイズを変えることは、非自明な方法で予測に影響を与える可能性がある。
合成データセットであるSI-Scoreを用いて,これらの変動要因に対するロバストネスのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2021-04-09T05:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。