論文の概要: MSD-Score: Multi-Scale Distributional Scoring for Reference-Free Image Caption Evaluation
- arxiv url: http://arxiv.org/abs/2605.06080v1
- Date: Thu, 07 May 2026 12:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.746231
- Title: MSD-Score: Multi-Scale Distributional Scoring for Reference-Free Image Caption Evaluation
- Title(参考訳): MSD-Score:リファレンスフリー画像キャプション評価のためのマルチスケール分散スコーリング
- Authors: Shichao Kan, Xuyang Zhang, Haojie Zhang, Zhe Zhu, Yigang Cen, Yixiong Liang, Lianlei Shan, Linna Zhang, Zhe Qu, Jiazhi Xia,
- Abstract要約: 画像パッチとテキストトークンの埋め込みを単位超球面上のvon Mises-Fisher混合体としてモデル化する参照フリーメトリックであるMSD-Scoreを提案する。
意味的不一致は、重み付き双方向KL分散によって定量化され、大域的な類似性と組み合わせられる。
実験の結果,MSD-Scoreは基準のない指標間の人間の判断と最先端の相関を達成できることがわかった。
- 参考スコア(独自算出の注目度): 32.34482125102006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating image captions without references remains challenging because global embedding similarity often misses fine-grained mismatches such as hallucinated objects, missing attributes, or incorrect relations. We propose MSD-Score, a reference-free metric that models image patch and text token embeddings as von Mises-Fisher mixtures on the unit hypersphere. Instead of treating each modality as a single point, MSD-Score formulates image-text matching as a multi-scale distributional scoring problem. Semantic discrepancies are quantified via a weighted bi-directional KL divergence and combined with global similarity in a multi-scale framework for both single- and multi-candidate evaluations. Extensive experiments show that MSD-Score achieves state-of-the-art correlation with human judgments among reference-free metrics. Beyond accuracy, its probabilistic formulation yields transparent and decomposable diagnostics of local grounding errors, providing a deterministic complementary signal to holistic similarity metrics and judge-based evaluators.
- Abstract(参考訳): 画像キャプションを参照なしで評価することは、グローバルな埋め込み類似性が、幻覚的オブジェクト、欠落した属性、誤った関係などの細かいミスマッチを見逃すことがしばしばあるため、依然として困難である。
画像パッチとテキストトークンの埋め込みを単位超球面上のvon Mises-Fisher混合体としてモデル化する参照フリーメトリックであるMSD-Scoreを提案する。
それぞれのモダリティを単一点として扱う代わりに、MSD-Scoreはマルチスケールの分布スコアリング問題として画像テキストマッチングを定式化している。
重み付けされた双方向KL分散により意味的不一致を定量化し、単一および多候補評価のための多スケールフレームワークにおけるグローバルな類似性と組み合わせる。
大規模な実験により,MSD-Scoreは基準のない指標間の人間の判断と最先端の相関を達成できることが示された。
確率的定式化は精度を超えて、局所的な接地誤差の透過的かつ分解可能な診断をもたらし、全体論的類似度指標と判断に基づく評価器に対する決定論的補完信号を提供する。
関連論文リスト
- Federated Measurement of Demographic Disparities from Quantile Sketches [4.991212094743681]
Horizontal Federated Learning (FL)は、生データを共有せずに、連携した機能を持つクライアント間の協調モデリングを可能にする。
本研究は, スコア分布による人口動態の相互監査, ワッサーシュタインとしての格差の測定, センシティブグループスコア法間の差異について検討する。
本稿では,各サイロがグループ数のみを共有し,その局所的なスコア分布を定量的に要約するワンショット通信効率のプロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-21T15:34:44Z) - Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - The Impact of the Single-Label Assumption in Image Recognition Benchmarking [1.4828022319975973]
ディープニューラルネットワーク(DNN)は通常、各画像が単一の正しいラベルを持つという仮定の下で評価される。
ImageNetのようなベンチマークの多くの画像には、複数の有効なラベルが含まれており、評価プロトコルと実際の視覚データの複雑さのミスマッチを生成する。
報告された精度ギャップに対するマルチラベル特性の影響を厳格に評価する。
論文 参考訳(メタデータ) (2024-12-24T12:55:31Z) - HICEScore: A Hierarchical Metric for Image Captioning Evaluation [10.88292081473071]
階層的画像キャプション評価スコア(HICE-S)と呼ばれる,画像キャプション評価のための新しい基準フリーメトリクスを提案する。
HICE-Sは、局所的な視覚領域とテキストのフレーズを検出することにより、解釈可能な階層的スコアリング機構を構築する。
提案手法は,複数のベンチマークでSOTA性能を達成し,既存の基準フリー指標よりも優れていた。
論文 参考訳(メタデータ) (2024-07-26T08:24:30Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z) - Reliable Fidelity and Diversity Metrics for Generative Models [30.941563781926202]
Fr'echet Inception Distance (FID)スコアは、Fr'echet Inception Distance(FID)スコアである。
最新の精度とリコール基準でさえまだ信頼性が低いことを示す。
上記の問題を解決するための密度とカバレッジの指標を提案する。
論文 参考訳(メタデータ) (2020-02-23T00:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。