論文の概要: Do Vision Transformers See Like Humans? Evaluating their Perceptual Alignment
- arxiv url: http://arxiv.org/abs/2508.09850v1
- Date: Wed, 13 Aug 2025 14:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.930834
- Title: Do Vision Transformers See Like Humans? Evaluating their Perceptual Alignment
- Title(参考訳): 視覚変換器は人間のように見えるか? 知覚的アライメントを評価する
- Authors: Pablo Hernández-Cámara, Jose Manuel Jaén-Lorites, Jorge Vila-Tomás, Valero Laparra, Jesus Malo,
- Abstract要約: 視覚変換器(ViT)は画像認識タスクにおいて顕著な性能を発揮するが、人間の知覚との整合性はほとんど解明されていない。
本研究では、モデルサイズ、データセットサイズ、データ拡張、正規化が、TID2013データセット上の人間の判断とViTの知覚的アライメントに与える影響を系統的に分析する。
- 参考スコア(独自算出の注目度): 1.5146068448101746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) achieve remarkable performance in image recognition tasks, yet their alignment with human perception remains largely unexplored. This study systematically analyzes how model size, dataset size, data augmentation and regularization impact ViT perceptual alignment with human judgments on the TID2013 dataset. Our findings confirm that larger models exhibit lower perceptual alignment, consistent with previous works. Increasing dataset diversity has a minimal impact, but exposing models to the same images more times reduces alignment. Stronger data augmentation and regularization further decrease alignment, especially in models exposed to repeated training cycles. These results highlight a trade-off between model complexity, training strategies, and alignment with human perception, raising important considerations for applications requiring human-like visual understanding.
- Abstract(参考訳): 視覚変換器(ViT)は画像認識タスクにおいて顕著な性能を発揮するが、人間の知覚との整合性はほとんど解明されていない。
本研究では、モデルサイズ、データセットサイズ、データ拡張、正規化が、TID2013データセット上の人間の判断とViTの知覚的アライメントに与える影響を系統的に分析する。
以上の結果より,より大きなモデルでは知覚的アライメントが低いことが確認された。
データセットの多様性の増大は影響を最小限にするが、同じ画像にモデルを露出することで、アライメントが減少する。
より強いデータ拡張と正規化により、特に繰り返しトレーニングサイクルに曝されるモデルにおいて、アライメントはさらに減少する。
これらの結果は、モデル複雑さ、トレーニング戦略、および人間の知覚との整合性の間のトレードオフを強調し、人間のような視覚的理解を必要とするアプリケーションに対する重要な考慮を提起する。
関連論文リスト
- Contour Integration Underlies Human-Like Vision [2.6716072974490794]
人間は、物体の輪郭がほとんどなくても、高精度に行動する。
人間は統合バイアスを示します -- 方向のないフラグメントよりも、方向のないフラグメントで構成されたオブジェクトを認識することを好むのです。
論文 参考訳(メタデータ) (2025-04-07T16:45:06Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - A data-centric approach to class-specific bias in image data
augmentation [0.0]
データ拡張(DA)は、コンピュータビジョンにおけるモデルの一般化を促進するが、バイアスを導入し、クラス精度に不均一に影響を及ぼす可能性がある。
DAのクラス固有のバイアスは、ImageNetと異なるデータセットを含む様々なデータセットでランダムなトリミングによって評価する。
これはモデル選択に対するニュアンスなアプローチを示唆し、バイアス緩和を強調している。
論文 参考訳(メタデータ) (2024-03-07T00:32:47Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Gaze-Informed Vision Transformers: Predicting Driving Decisions Under Uncertainty [5.006068984003071]
ビジョントランスフォーマー(ViT)は先進的なコンピュータビジョンを持っているが、運転のような複雑なタスクにおける有効性はいまだ研究されていない。
本研究は、視線を視線追跡によって捉え、不確実性の下での運転シナリオの予測精度を高めることにより、視線と視線を融合させることにより、視線を増強する。
論文 参考訳(メタデータ) (2023-08-26T22:48:06Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。