論文の概要: Do Image-Text Metrics Respect Semantic Invariances?
- arxiv url: http://arxiv.org/abs/2605.24702v1
- Date: Sat, 23 May 2026 18:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.337807
- Title: Do Image-Text Metrics Respect Semantic Invariances?
- Title(参考訳): 画像テキストメトリクスは意味的不変性を無視するか?
- Authors: Amit Agarwal, Hitesh Laxmichand Patel, Meizhu Liu, Jyotika Singh, Karan Dua, Hansa Meghwani, Matthew Rowe, Michael Avendi, Yassi Abbasi, Tao Sheng, Sujith Ravi, Dan Roth,
- Abstract要約: 3軸の摂動を意味論的に保存する5つの人気評価器に不変なプローブを提案する。
連続した非意味的感性を見いだし, 空間的編集や簡単なフレーズ変化を平均で$approx$6--9%シフトする。
小さな人間の研究もこの発見を支持し、アノテータがペアを概して同じくらい正しいと判断していることを確認し、これらの変化は意味的変化よりもメートル法的な振る舞いを反映している。
- 参考スコア(独自算出の注目度): 32.397351493793416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-free image-to-text evaluators are now standard for scoring image-caption alignment, yet it is unclear whether they respect semantic invariances. We present an invariance probe on five popular evaluators (CLIPScore, PAC-S, UMIC, FLEUR, and a deterministic LLM judge) under semantics-preserving perturbations along three axes -- spatial (flips, context-preserving repositioning, light rotations), object (scale, category), and socio-linguistic framing (cultural/economic adjectives with neutral and length-matched controls). Across curated slices of three detection datasets and three caption evaluation suites, we find consistent non-semantic sensitivities, where benign spatial edits and simple phrasing changes shift scores by $\approx$6--9\% on average, and for systems separated by just 0.7\%, these shifts can cause ranking flips in up to $\sim$37\% of cases, particularly under spatial changes. A small human study also supports this finding and confirms that annotators generally judge perturbed pairs as equally correct, so these shifts reflect metric behavior rather than semantic change. We further propose invariance-calibrated scoring, a post-hoc adjustment that roughly halves median absolute sensitivity while retaining correlation with learned caption evaluators.
- Abstract(参考訳): 参照自由な画像からテキストへの評価器は、現在、画像のキャプションアライメントを評価するのに標準となっているが、意味的不変性を尊重するかどうかは不明である。
本研究では, 空間的(フリップ, 文脈保存的再配置, 光回転), 対象(スケール, カテゴリ), 社会言語的フレーミング(中性および長さ整合制御をもつ文化的・経済的な形容詞)の3つの軸に沿った摂動を意味論的に保存する5つの人気評価器(CLIPScore, PAC-S, UMIC, FLEUR, 決定論的 LLM 判定器)について検討した。
3つの検出データセットと3つのキャプション評価スイートのキュレートされたスライスによって、一貫した非セマンティック感性を見出した。そこでは、空間的編集と単純なフレーズ変更が平均$\approx$6--9\%シフトし、わずか0.7\%で分離されたシステムでは、特に空間的変化の下では、最大$\sim$37\%のケースにおいてランキングフリップを引き起こす可能性がある。
小さな人間の研究もこの発見を支持し、アノテーターが概して摂動対を等しく正しいと判断していることを確認し、これらの変化は意味的変化よりもメートル法的な振る舞いを反映している。
さらに,学習キャプション評価器との相関を保ちながら,中央値の絶対感度をほぼ半減させる非分散校正スコアを提案する。
関連論文リスト
- MSD-Score: Multi-Scale Distributional Scoring for Reference-Free Image Caption Evaluation [32.34482125102006]
画像パッチとテキストトークンの埋め込みを単位超球面上のvon Mises-Fisher混合体としてモデル化する参照フリーメトリックであるMSD-Scoreを提案する。
意味的不一致は、重み付き双方向KL分散によって定量化され、大域的な類似性と組み合わせられる。
実験の結果,MSD-Scoreは基準のない指標間の人間の判断と最先端の相関を達成できることがわかった。
論文 参考訳(メタデータ) (2026-05-07T12:02:23Z) - Evaluating the Evaluator: Problems with SemEval-2020 Task 1 for Lexical Semantic Change Detection [1.1340133299604382]
語彙意味変化検出のための最も影響力のあるベンチマークであるSemEval-2020 Task 1を再検討する。
ベンチマークは、かなりのコーパスと前処理の問題に影響されていることを示す。
我々は、限定言語の範囲が限定された小さな目標セットは現実主義を減らし、統計的不確実性を増大させると主張している。
論文 参考訳(メタデータ) (2026-04-14T19:01:25Z) - DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval [53.482391830683014]
合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
学習可能な属性重みとターゲットの相対的負サンプリングによるクエリ埋め込みを提案する。
論文 参考訳(メタデータ) (2026-03-04T13:17:44Z) - Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - Ambiguity-aware Point Cloud Segmentation by Adaptive Margin Contrastive Learning [65.94127546086156]
本稿では,ポイントクラウド上のセマンティックセマンティックセグメンテーションのための適応的マージン比較学習法を提案する。
まず,両立度推定フレームワークにコントラスト学習を組み込んだAMContrast3Dを設計する。
共同トレーニングの洞察に触発されて、並列にトレーニングされた2つのブランチとAMContrast3D++を統合することを提案する。
論文 参考訳(メタデータ) (2025-07-09T07:00:32Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - RLSbench: Domain Adaptation Under Relaxed Label Shift [39.845383643588356]
ラベルシフトを緩和するための大規模ベンチマークであるRSbenchを紹介する。
13の一般的なドメイン適応手法を評価し、ラベル比のシフトにより、従来よりも広範な障害を示す。
我々は、ほとんどのドメイン適応と互換性のある効果的な2段階メタアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-02-06T18:57:14Z) - Full-Spectrum Out-of-Distribution Detection [42.98617540431124]
両シフトタイプを考慮し、フルスペクトルOOD(FS-OOD)検出を導入する。
本稿では,単純な特徴に基づくセマンティックススコア関数であるSEMを提案する。
SEMは現在の最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2022-04-11T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。