論文の概要: Vision Transformers Exhibit Human-Like Biases: Evidence of Orientation and Color Selectivity, Categorical Perception, and Phase Transitions
- arxiv url: http://arxiv.org/abs/2504.09393v1
- Date: Sun, 13 Apr 2025 01:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:07.582381
- Title: Vision Transformers Exhibit Human-Like Biases: Evidence of Orientation and Color Selectivity, Categorical Perception, and Phase Transitions
- Title(参考訳): 視覚トランスフォーマーによるヒト様ビアーゼのエビデンス--オリエンテーションと色選択性、カテゴリー知覚、相転移の証拠
- Authors: Nooshin Bahador,
- Abstract要約: 本研究では、視覚変換器(ViT)が人間の脳で観察されるものと似た配向と色バイアスを発達させたかどうかを調べた。
ノイズレベル,角度,長さ,幅,色の変化を制御した合成データセットを用いて,LoRAで微調整したViTの挙動を解析した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study explored whether Vision Transformers (ViTs) developed orientation and color biases similar to those observed in the human brain. Using synthetic datasets with controlled variations in noise levels, angles, lengths, widths, and colors, we analyzed the behavior of ViTs fine-tuned with LoRA. Our findings revealed four key insights: First, ViTs exhibited an oblique effect showing the lowest angle prediction errors at 180 deg (horizontal) across all conditions. Second, angle prediction errors varied by color. Errors were highest for bluish hues and lowest for yellowish ones. Additionally, clustering analysis of angle prediction errors showed that ViTs grouped colors in a way that aligned with human perceptual categories. In addition to orientation and color biases, we observed phase transition phenomena. While two phase transitions occurred consistently across all conditions, the training loss curves exhibited delayed transitions when color was incorporated as an additional data attribute. Finally, we observed that attention heads in certain layers inherently develop specialized capabilities, functioning as task-agnostic feature extractors regardless of the downstream task. These observations suggest that biases and properties arise primarily from pre-training on the original dataset which shapes the model's foundational representations and the inherent architectural constraints of the vision transformer, rather than being solely determined by downstream data statistics.
- Abstract(参考訳): 本研究では、視覚変換器(ViT)が人間の脳で観察されるものと似た配向と色バイアスを発達させたかどうかを調べた。
ノイズレベル,角度,長さ,幅,色の変化を制御した合成データセットを用いて,LoRAで微調整したViTの挙動を解析した。
第一に、VTはすべての条件において180度(水平)の角度予測誤差が最も低い斜め効果を示した。
第2に、角度予測誤差は色によって異なる。
エラーは青みがかった色合いが最も高く、黄みがかった色合いが低かった。
さらに、角度予測誤差のクラスタリング分析により、ViTsは人間の知覚カテゴリーに合わせて色をグループ化した。
配向や色バイアスに加えて, 相転移現象も観察した。
2つの位相遷移は全ての条件で連続的に起こるが、トレーニング損失曲線は、色が付加的なデータ属性として組み込まれたときに遅延遷移を示す。
最後に,特定の階層における注目ヘッドが,下流タスクによらずタスクに依存しない特徴抽出器として機能する特長を発達させることを観察した。
これらの観察は、バイアスと特性が主に、下流のデータ統計によってのみ決定されるのではなく、モデルの基本表現と視覚変換器固有のアーキテクチャ制約を形作る元のデータセットの事前学習から生じることを示唆している。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - The Influences of Color and Shape Features in Visual Contrastive
Learning [0.0]
本稿では,個々の画像特徴(色や形状など)がモデル性能に与える影響について検討する。
実験結果から、教師付き表現と比較して、コントラスト表現は類似した色を持つオブジェクトとクラスタリングする傾向にあることが示された。
論文 参考訳(メタデータ) (2023-01-29T15:10:14Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。