論文の概要: Low-Pass Filtering Improves Behavioral Alignment of Vision Models
- arxiv url: http://arxiv.org/abs/2602.13859v1
- Date: Sat, 14 Feb 2026 19:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.518786
- Title: Low-Pass Filtering Improves Behavioral Alignment of Vision Models
- Title(参考訳): 低パスフィルタは視覚モデルの行動アライメントを改善する
- Authors: Max Wolff, Thomas Klein, Evgenia Rusak, Felix Wichmann, Wieland Brendel,
- Abstract要約: 生成モデルは,低域通過フィルタとして効果的に機能する生成モデルにおいて,一見無害な操作によって大きく説明できることを示す。
CLIPのような識別モデルから高周波空間情報を除去することで,行動アライメントを大幅に向上させることを示す。
フィルタのアライメントを直接最適化することで,低域フィルタが最適である可能性が示唆された。
- 参考スコア(独自算出の注目度): 24.72922224210244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive performance on computer vision benchmarks, Deep Neural Networks (DNNs) still fall short of adequately modeling human visual behavior, as measured by error consistency and shape bias. Recent work hypothesized that behavioral alignment can be drastically improved through \emph{generative} -- rather than \emph{discriminative} -- classifiers, with far-reaching implications for models of human vision. Here, we instead show that the increased alignment of generative models can be largely explained by a seemingly innocuous resizing operation in the generative model which effectively acts as a low-pass filter. In a series of controlled experiments, we show that removing high-frequency spatial information from discriminative models like CLIP drastically increases their behavioral alignment. Simply blurring images at test-time -- rather than training on blurred images -- achieves a new state-of-the-art score on the model-vs-human benchmark, halving the current alignment gap between DNNs and human observers. Furthermore, low-pass filters are likely optimal, which we demonstrate by directly optimizing filters for alignment. To contextualize the performance of optimal filters, we compute the frontier of all possible pareto-optimal solutions to the benchmark, which was formerly unknown. We explain our findings by observing that the frequency spectrum of optimal Gaussian filters roughly matches the spectrum of band-pass filters implemented by the human visual system. We show that the contrast sensitivity function, describing the inverse of the contrast threshold required for humans to detect a sinusoidal grating as a function of spatiotemporal frequency, is approximated well by Gaussian filters of the specific width that also maximizes error consistency.
- Abstract(参考訳): コンピュータビジョンベンチマークにおける優れたパフォーマンスにもかかわらず、Deep Neural Networks(DNN)は、エラーの一貫性と形状バイアスによって測定されるように、人間の視覚行動を適切にモデル化することができない。
最近の研究は、行動アライメントは、人間の視覚のモデルに広範囲に影響を及ぼすような分類器ではなく、'emph{generative} -- \emph{discriminative} -- を通じて劇的に改善できるという仮説を立てている。
そこで本研究では, 生成モデルのアライメントの増大が, 低域フィルタとして効果的に機能する生成モデルにおいて, 一見無害な再サイズ操作によって大きく説明できることを示す。
一連の制御実験において、CLIPのような識別モデルから高周波空間情報を除去することで、行動アライメントが劇的に増加することを示した。
ぼやけた画像のトレーニングではなく、テスト時に画像をぼやかすだけで、DNNと人間のオブザーバーの現在のアライメントギャップを半減する、新しい最先端のスコアが得られた。
さらに,フィルタのアライメントを直接最適化することで,低域通過フィルタが最適である可能性が示唆された。
最適フィルタの性能を文脈的に評価するために,従来は知られていなかったベンチマークに対する全ての最適解のフロンティアを計算した。
本稿では,最適なガウスフィルタの周波数スペクトルが,人間の視覚システムによって実装された帯域通過フィルタのスペクトルと大まかに一致していることを示す。
時間周波数の関数として正弦波格子を検出するのに必要なコントラスト閾値の逆について記述したコントラスト感度関数が,誤差の一貫性を最大化する特定の幅のガウスフィルタによりよく近似されていることを示す。
関連論文リスト
- From Filters to VLMs: Benchmarking Defogging Methods through Object Detection and Segmentation Performance [2.0524609401792397]
包括的なパイプラインの集合をベンチマークする構造化された経験的研究を提案する。
物体検出(mAP)とセグメンテーション(PQ, RQ, SQ)における画質と下流性能の評価を行った。
我々の分析では,デフォッギングが有効である場合,連鎖が相乗効果や劣化をもたらす場合,VLMベースのエディタが専用のアプローチとどのように比較されるかを明らかにした。
論文 参考訳(メタデータ) (2025-10-04T19:05:04Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Dual-Frequency Filtering Self-aware Graph Neural Networks for Homophilic and Heterophilic Graphs [60.82508765185161]
我々は、Dual-Frequency Filtering Self-Aware Graph Neural Networks (DFGNN)を提案する。
DFGNNは低域通過フィルタと高域通過フィルタを統合し、滑らかで詳細な位相的特徴を抽出する。
フィルター比を動的に調整し、ホモフィルグラフとヘテロフィルグラフの両方に対応する。
論文 参考訳(メタデータ) (2024-11-18T04:57:05Z) - Closed-form Filtering for Non-linear Systems [83.91296397912218]
我々は密度近似と計算効率の面でいくつかの利点を提供するガウスPSDモデルに基づく新しいフィルタのクラスを提案する。
本研究では,遷移や観測がガウスPSDモデルである場合,フィルタリングを効率的にクローズド形式で行うことができることを示す。
提案する推定器は, 近似の精度に依存し, 遷移確率の正則性に適応する推定誤差を伴って, 高い理論的保証を享受する。
論文 参考訳(メタデータ) (2024-02-15T08:51:49Z) - Frequency Compensated Diffusion Model for Real-scene Dehazing [6.105813272271171]
本研究では,実ヘイズへの一般化を改善する条件付き拡散モデルに基づく脱ヘイズフレームワークについて考察する。
提案手法は, 実世界の画像において, 最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-08-21T06:50:44Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Computational Doob's h-transforms for Online Filtering of Discretely
Observed Diffusions [65.74069050283998]
本研究では,Doobの$h$-transformsを近似する計算フレームワークを提案する。
提案手法は、最先端粒子フィルタよりも桁違いに効率的である。
論文 参考訳(メタデータ) (2022-06-07T15:03:05Z) - Can we integrate spatial verification methods into neural-network loss
functions for atmospheric science? [0.030458514384586396]
大気科学におけるニューラルネットワーク(NN)は、ほぼ常にピクセル単位の損失関数を最適化するために訓練されている。
これにより、トレーニング中のモデル検証とトレーニング後のモデル検証の切り離しが確立される。
本研究では,空間的に拡張された損失関数(SELF)を開発し,雷雨の発生を予測する実世界の問題に対するそれらの利用を実証する。
論文 参考訳(メタデータ) (2022-03-21T17:18:43Z) - Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning
Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。
本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-20T07:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。