論文の概要: Raising the Ceiling: Better Empirical Fixation Densities for Saliency Benchmarking
- arxiv url: http://arxiv.org/abs/2605.03885v1
- Date: Tue, 05 May 2026 15:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.013248
- Title: Raising the Ceiling: Better Empirical Fixation Densities for Saliency Benchmarking
- Title(参考訳): シーリングを高くする - サイリエンシベンチマークのための経験的固定密度の改善
- Authors: Susmit Agrawal, Jannis Hollman, Matthias Kümmerer,
- Abstract要約: 人間の視線追跡データから推定される空間分布である経験的固定密度は、サリエンシ・ベンチマークの基礎となる。
本稿では、アブラムソンの手法、中心バイアスと均一成分に基づく適応帯域Ubuntuと、最先端のサリエンシモデルを組み合わせた基本混合モデルを提案する。
提案手法は,複数のベンチマークにおいて,ログライクで5~15%,AUCで最大2ポイント,各画像当たりの平均値が5~15%向上し,サーバ間の整合性評価が大幅に向上する。
- 参考スコア(独自算出の注目度): 7.44553254894651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical fixation densities, spatial distributions estimated from human eye-tracking data, are foundational to saliency benchmarking. They directly shape benchmark conclusions, leaderboard rankings, failure case analyses, and scientific claims about human visual behavior. Yet the standard estimation method, fixed-bandwidth isotropic Gaussian KDE, has gone essentially unchanged for decades. This matters now more than ever: as the field shifts toward sample-level evaluation (failure case analysis, inverse benchmarking, per-image model comparison), reliable per-image density estimates become critical. We propose a principled mixture model that combines an adaptive-bandwidth KDE based on Abramson's method, center bias and uniform components, and a state-of-the-art saliency model, to capture different spatial and semantic types of interobserver consistency, and optimize all parameters per image via leave-one-subject-out cross-validation. Our method yields substantially higher interobserver consistency estimates across multiple benchmarks, with median per-image gains of 5-15% in log-likelihood and up to 2 percentage points in AUC. For the most affected images -- precisely those most relevant to failure case analysis -- improvements exceed 25%. We leverage these improved estimates to identify and analyze remaining failure cases of state-of-the-art saliency models, demonstrating that significant headroom for model improvement remains. More broadly, our findings highlight that empirical fixation densities should not be treated as fixed ground truths but as evolving estimates that improve with better methodology.
- Abstract(参考訳): 人間の視線追跡データから推定される空間分布である経験的固定密度は、サリエンシ・ベンチマークの基礎となる。
ベンチマークの結論、リーダーボードのランキング、失敗事例の分析、人間の視覚行動に関する科学的主張を直接形成する。
しかし、標準推定法である固定帯域等方性ガウスKDEは、何十年も実質的に変化していない。
フィールドがサンプルレベルの評価(欠陥ケース分析、逆ベンチマーク、画像ごとのモデル比較)へとシフトするにつれ、画像ごとの信頼度推定が重要になる。
本稿では,Abramsonの手法,中心バイアス,均一成分に基づく適応帯域KDEと最先端サリエンシモデルを組み合わせて,異なる空間的およびセマンティックな相互オブザーバの整合性を捉えるとともに,画像毎のパラメータをLeft-one-subject-outクロスバリデーションにより最適化する原理的混合モデルを提案する。
提案手法は,複数のベンチマークにおいて,ログライクで5~15%,AUCで最大2ポイント,各画像当たりの平均値が5~15%向上し,サーバ間の整合性評価が大幅に向上する。
最も影響の大きいイメージ(正確には障害ケース分析に関連するもの)では、改善が25%を超えている。
これらの改善された見積を利用して、最先端の正当性モデルの残りの障害ケースを特定し、分析し、モデル改善のための重要なヘッドルームが残っていることを示す。
より広い範囲で見れば、経験的固定密度は固定基底真理として扱われるべきではなく、より良い方法論で改善する進化的推定として扱われるべきである。
関連論文リスト
- K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - No-Reference Image Contrast Assessment with Customized EfficientNet-B0 [3.4527546378946]
NR IQAモデルでは,様々な実環境下でのコントラスト歪みの精度評価に苦慮した基準画像品質評価は行われなかった。
本研究では,ブラインドコントラスト品質評価のためのディープラーニングに基づくフレームワークを提案する。
モデルはコントラスト対応レグレッションヘッドと、ターゲットデータ拡張を使用してトレーニングされたエンドツーエンドで修正される。
論文 参考訳(メタデータ) (2025-09-26T06:54:37Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Average-DICE: Stationary Distribution Correction by Regression [7.193870502672509]
オフ政治政策評価(OPE)は、長い間、定常的な状態分布ミスマッチに悩まされてきた。
AVG-DICEは密度比を計算的にシンプルなモンテカルロ推定器である。
我々の実験では、AVG-DICEは最先端の推定器と同じくらい正確であり、時にはマグニチュードの改良を提供する。
論文 参考訳(メタデータ) (2025-03-03T23:14:02Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - GAN-based Image Compression with Improved RDO Process [20.00340507091567]
速度歪みの最適化を改良した新しいGANベースの画像圧縮手法を提案する。
これを実現するために、DisTSとMS-SSIMのメトリクスを用いて、色、テクスチャ、構造における知覚的変性を測定する。
提案手法は,既存のGAN法および最先端ハイブリッド(VVC)よりも優れている。
論文 参考訳(メタデータ) (2023-06-18T03:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。