論文の概要: Deep Psychovisual Image Representations
- arxiv url: http://arxiv.org/abs/2605.29260v1
- Date: Thu, 28 May 2026 02:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.59551
- Title: Deep Psychovisual Image Representations
- Title(参考訳): 深部心理視覚画像表現
- Authors: Wendi Ma, Aryaman Sharma, Wei Dai, Shekhar S. Chandra,
- Abstract要約: 心理視覚モデルでは、人間の視覚は、中間抽象を初めて形成することによって、高い認識から低レベルの特徴抽出を分離することを示唆している。
Deep Visual Coding(ディープ・ビジュアル・コーディング)は1990年代のイメージ・コードにインスパイアされた学習周波数領域の表現である。
我々のモデルは、複雑な数値表現と学習された抽象化が深部空間層の役割を補うため、モデルスケーリングにおいてCNNよりも深部依存度が低いことが分かりました。
- 参考スコア(独自算出の注目度): 4.232168367173663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Psychovisual models suggest human vision decouples low-level feature extraction from higher cognition by first forming intermediate abstractions. In contrast, deep learning-based vision models routinely extract and aggregate features using homogeneous stacks of spatial layers, rendering their decision-making processes opaque. In this paper, we propose Deep Visual Coding, a learned frequency-domain representation inspired by 1990s image codes that quantised perceptually salient frequencies, which together with complex-valued image representations produces psychovisual-style abstractions. This approach enables the first psychovisual-based deep learning framework, utilizing data-driven spectral filters that learn to encode task-relevant semantic structures within distinct frequency sub-bands. Salience analyses reveal that our psychovisual models extract highly interpretable object parts compared to the amorphous regions produced by regular Convolutional Neural Networks (CNNs). Furthermore, we find that our models are less depth dependent than CNNs for model scaling, since our complex-valued representations and learned abstractions subsume the role of the deep spatial layers. Together, these findings demonstrate that psychovisual coding provides a promising path toward more efficient and transparent vision models.
- Abstract(参考訳): 心理視覚モデルでは、人間の視覚は、中間抽象を初めて形成することによって、高い認識から低レベルの特徴抽出を分離することを示唆している。
対照的に、深層学習に基づく視覚モデルは、空間層の均質なスタックを用いて、定期的に特徴を抽出し集約し、意思決定プロセスが不透明になる。
本稿では,1990年代のイメージコードにインスパイアされた学習周波数領域の表現であるDeep Visual Codingを提案する。
このアプローチは、異なる周波数サブバンド内のタスク関連セマンティック構造を符号化するデータ駆動スペクトルフィルタを利用する、最初の心理視覚に基づくディープラーニングフレームワークを実現する。
サリエンス分析により,我々の心理視覚モデルは,通常の畳み込みニューラルネットワーク(CNN)が生成する非晶質領域と比較して,高度に解釈可能な対象部位を抽出することが明らかとなった。
さらに、複雑な数値表現や学習された抽象概念が深部空間層の役割を補うため、モデルスケーリングにおいて我々のモデルはCNNよりも深部依存度が低いことが判明した。
これらの知見は、心理視覚的コーディングがより効率的で透明な視覚モデルへの有望な道を提供することを示している。
関連論文リスト
- Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding [8.822848795081693]
本稿では,ニューラルネットワークを最終的な出力ではなく,視覚エンコーダの中間表現と整合させる新しいコントラスト学習戦略を提案する。
提案手法は,ニューラル・ビジュアル・デコードにおけるスケーリングの法則を効果的に解き明かし,事前学習された視覚バックボーンの容量でデコード性能を予測可能とした。
論文 参考訳(メタデータ) (2026-01-29T16:30:32Z) - Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion [19.983291706164923]
ニューラル潜伏部分空間に符号化された視覚的意味属性を可視化し、検証するMIG-Visを提案する。
2つのマカクの下側頭葉(IT)大脳皮質からのマルチセッションニューラルスパイクデータセット上でMIG-Visを検証する。
論文 参考訳(メタデータ) (2025-10-02T16:33:40Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers [5.265058307999745]
本稿では,自然界における空間分布型視覚概念とニューラルセレクティビティを関連付ける方法であるBrainSAILを紹介する。
BrainSAILは、事前訓練された視覚モデルから意味的に一貫性があり、密集した空間的特徴を利用する。
カテゴリー選択性のある大脳皮質領域におけるBrainSAILの評価を行った。
論文 参考訳(メタデータ) (2024-10-07T17:59:45Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Neural encoding and interpretation for high-level visual cortices based
on fMRI using image caption features [14.038605815510145]
本研究では、画像キャプション(IC)タスクと、高レベルの視覚皮質のボクセルを符号化するためのIC特徴に基づく視覚符号化モデルを提案する。
論文 参考訳(メタデータ) (2020-03-26T08:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。