論文の概要: DistortBench: Benchmarking Vision Language Models on Image Distortion Identification
- arxiv url: http://arxiv.org/abs/2604.19966v1
- Date: Tue, 21 Apr 2026 20:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.780202
- Title: DistortBench: Benchmarking Vision Language Models on Image Distortion Identification
- Title(参考訳): DistortBench:画像歪み同定に基づく視覚言語モデルのベンチマーク
- Authors: Divyanshu Goyal, Akhil Eppa, Vanya Bannihatti Kumar,
- Abstract要約: 視覚言語モデル(VLM)は、低レベルの画像劣化に対する感度が重要な設定において、ますます使われている。
VLMにおける非参照歪み知覚のための診断ベンチマークであるDistortBenchを提案する。
- 参考スコア(独自算出の注目度): 1.1609102090344634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are increasingly used in settings where sensitivity to low-level image degradations matters, including content moderation, image restoration, and quality monitoring. Yet their ability to recognize distortion type and severity remains poorly understood. We present DistortBench, a diagnostic benchmark for no-reference distortion perception in VLMs. DistortBench contains 13,500 four-choice questions covering 27 distortion types, six perceptual categories, and five severity levels: 25 distortions inherit KADID-10k calibrations, while two added rotation distortions use monotonic angle-based levels. We evaluate 18 VLMs, including 17 open-weight models from five families and one proprietary model. Despite strong performance on high-level vision-language tasks, the best model reaches only 61.9% accuracy, just below the human majority-vote baseline of 65.7% (average individual: 60.2%), indicating that low-level perceptual understanding remains a major weakness of current VLMs. Our analysis further reveals weak and non-monotonic scaling with model size, performance drops in most base--thinking pairs, and distinct severity-response patterns across model families. We hope DistortBench will serve as a useful benchmark for measuring and improving low-level visual perception in VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、コンテンツモデレーション、画像復元、品質監視など、低レベルの画像劣化に対する感度が重要な設定において、ますます使われるようになっている。
しかし、歪みのタイプや重大さを認識する能力はいまだによく理解されていない。
VLMにおける非参照歪み知覚のための診断ベンチマークであるDistortBenchを提案する。
DistortBenchには、27の歪みタイプ、6つの知覚カテゴリー、5つの重度レベルを含む13,500の4つの質問が含まれている:25の歪みはKADID-10kのキャリブレーションを継承し、2つの追加の回転歪みは単調角度に基づくレベルを使用する。
5つのファミリーと1つのプロプライエタリモデルから17のオープンウェイトモデルを含む18のVLMを評価した。
高レベルの視覚言語タスクの性能は高いが、最高のモデルは61.9%の精度に達し、人間の多数決投票ベースラインの65.7%(平均60.2%)をわずかに下回った。
分析の結果,モデルサイズ,ほとんどの基本概念的ペアのパフォーマンス低下,モデルファミリ間の重大度応答パターンの相違が明らかになった。
我々は、DistortBenchがVLMの低レベル視覚知覚の測定と改善に有用なベンチマークとなることを願っている。
関連論文リスト
- VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment [7.969076042774561]
低レベルの歪み知覚タスクを導入し、モデルが特定の歪みタイプを分類する必要がある。
解析の結果,MLLMは構造的にそのような歪みを表現できるが,トレーニングテンプレートに適合しがちであることがわかった。
視覚エンコーダのアライメントを改善することで、歪み認識精度が劇的に向上し、14.92%から84.43%に向上することを示す。
論文 参考訳(メタデータ) (2025-12-10T12:06:47Z) - DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation [0.7874708385247353]
時間列の動的視覚劣化下でのVLMロバスト性を評価するための最初のベンチマークであるDIQ-Hを紹介する。
DIQ-Hは、モーションボケ、センサノイズ、圧縮アーティファクトなどの物理ベースの汚職を適用し、幻覚の持続性、エラー回復、時間的一貫性を測定する。
拡張性のあるアノテーションを実現するために,疑似地下構造を生成するUncertainty-Guided Iterative Refinement (UIR)を提案する。
論文 参考訳(メタデータ) (2025-12-03T17:22:29Z) - COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。
以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文 参考訳(メタデータ) (2025-07-17T04:47:47Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。