論文の概要: From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images
- arxiv url: http://arxiv.org/abs/2508.10450v1
- Date: Thu, 14 Aug 2025 08:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.236883
- Title: From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images
- Title(参考訳): イメージから知覚へ:画像再構成による知覚特性の創出
- Authors: Pablo Hernández-Cámara, Jesus Malo, Valero Laparra,
- Abstract要約: 網膜-V1大脳皮質のいくつかの既知の事実に対応するバイオインスパイアされたアーキテクチャであるPerceptNetは、画像再構成に関連するさまざまなタスクにエンドツーエンドで最適化されている。
以上の結果から,エンコーダの段階は画像歪みに対する人間の知覚的判断と一貫した相関を示すことがわかった。
- 参考スコア(独自算出の注目度): 1.77513002450736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A number of scientists suggested that human visual perception may emerge from image statistics, shaping efficient neural representations in early vision. In this work, a bio-inspired architecture that can accommodate several known facts in the retina-V1 cortex, the PerceptNet, has been end-to-end optimized for different tasks related to image reconstruction: autoencoding, denoising, deblurring, and sparsity regularization. Our results show that the encoder stage (V1-like layer) consistently exhibits the highest correlation with human perceptual judgments on image distortion despite not using perceptual information in the initialization or training. This alignment exhibits an optimum for moderate noise, blur and sparsity. These findings suggest that the visual system may be tuned to remove those particular levels of distortion with that level of sparsity and that biologically inspired models can learn perceptual metrics without human supervision.
- Abstract(参考訳): 多くの科学者は、人間の視覚知覚が画像統計から出現し、初期の視覚において効率的な神経表現を形成することを示唆した。
本研究では、網膜-V1大脳皮質におけるいくつかの既知の事実に対応するバイオインスパイアされたアーキテクチャ、PerceptNetが、画像再構成に関連するさまざまなタスク(オートエンコーディング、デノイング、デブロアリング、スペーサリティ正則化)にエンドツーエンドで最適化されている。
以上の結果から,初期化や訓練において知覚情報を使用しないにもかかわらず,エンコーダの段階(V1様層)は画像歪みに対する人間の知覚的判断と高い相関性を示すことが明らかとなった。
このアライメントは、中程度のノイズ、ぼやけ、空間性に最適である。
これらの知見は、視覚系が、その空間的歪みの程度で特定のレベルの歪みを取り除くように調整され、生物学的にインスパイアされたモデルが人間の監督なしに知覚的メトリクスを学習できることを示唆している。
関連論文リスト
- Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
人間の視覚知覚と記憶の理解の進歩にもかかわらず、画像の記憶可能性にどのような特徴が寄与するかは明らかになっていない。
我々は、VGG16畳み込みニューラルネットワーク(CNN)上に構築されたオートエンコーダベースのアプローチを用いて、画像の潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Perception Over Time: Temporal Dynamics for Robust Image Understanding [5.584060970507506]
ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T21:11:59Z) - Learning GAN-based Foveated Reconstruction to Recover Perceptually
Important Image Features [0.0]
本研究では, 埋設工法を効率的に指導する上での問題点を考察する。
私たちの一番の目標は、人間が検出できない歪みに対してトレーニング手順の感度を下げることです。
評価の結果, 画像再構成の精度は, GANベースのトレーニング手法に比べて有意に向上した。
論文 参考訳(メタデータ) (2021-08-07T18:39:49Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。