論文の概要: Predicting upcoming visual features during eye movements yields scene representations aligned with human visual cortex
- arxiv url: http://arxiv.org/abs/2511.12715v1
- Date: Sun, 16 Nov 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.499905
- Title: Predicting upcoming visual features during eye movements yields scene representations aligned with human visual cortex
- Title(参考訳): 眼球運動に伴う視覚的特徴の予測は、人間の視覚野に一致したシーン表現をもたらす
- Authors: Sushrut Thorat, Adrien Doerig, Alexander Kroner, Carmen Amme, Tim C. Kietzmann,
- Abstract要約: 我々はGlimpse Prediction Networks (GPNs) を訓練し、人間のようなスキャンパスを自然の風景に埋め込むことを予測した。
GPNは共起構造を学習し、相対的なササード位置ベクトルを与えると空間配置に対する感度を示す。
これらの結果は、生物学的に妥当で自己管理された脳のシーン表現への経路として、能動視覚下での次の滑稽な予測を確立している。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scenes are complex, yet structured collections of parts, including objects and surfaces, that exhibit spatial and semantic relations to one another. An effective visual system therefore needs unified scene representations that relate scene parts to their location and their co-occurrence. We hypothesize that this structure can be learned self-supervised from natural experience by exploiting the temporal regularities of active vision: each fixation reveals a locally-detailed glimpse that is statistically related to the previous one via co-occurrence and saccade-conditioned spatial regularities. We instantiate this idea with Glimpse Prediction Networks (GPNs) -- recurrent models trained to predict the feature embedding of the next glimpse along human-like scanpaths over natural scenes. GPNs successfully learn co-occurrence structure and, when given relative saccade location vectors, show sensitivity to spatial arrangement. Furthermore, recurrent variants of GPNs were able to integrate information across glimpses into a unified scene representation. Notably, these scene representations align strongly with human fMRI responses during natural-scene viewing across mid/high-level visual cortex. Critically, GPNs outperform architecture- and dataset-matched controls trained with explicit semantic objectives, and match or exceed strong modern vision baselines, leaving little unique variance for those alternatives. These results establish next-glimpse prediction during active vision as a biologically plausible, self-supervised route to brain-aligned scene representations learned from natural visual experience.
- Abstract(参考訳): シーンは複雑だが、オブジェクトや表面を含む構成された部品の集まりであり、互いに空間的および意味的な関係を示す。
したがって、効果的な視覚システムには、シーン部分とそれらの位置とその共起を関連付ける統一的なシーン表現が必要である。
我々は,この構造を,活動視の時間的規則性を利用して自然経験から学習することができると仮定する:各固定法は,共起とササード条件の空間的規則性を通じて,前者と統計的に関連している局所的詳細視線を明らかにする。
私たちは、このアイデアをGlimpse Prediction Networks (GPNs)でインスタンス化します。
GPNは共起構造を学習し、相対的なササード位置ベクトルを与えると空間配置に対する感度を示す。
さらに、GPNの繰り返しの変種は、視線をまたいだ情報を統一されたシーン表現に統合することができた。
特に、これらのシーン表現は、中高レベルの視覚野を横断する自然シーン観察中にヒトのfMRI反応と強く一致している。
批判的に、GPNは、明示的な意味的目的によって訓練されたアーキテクチャやデータセットにマッチした制御を上回り、強力な現代のビジョンベースラインにマッチまたは超過し、それらの代替案に特有の差異はほとんど残っていない。
これらの結果は、視覚経験から学んだ、生物学的に妥当で、自己監督された脳に整合したシーン表現への経路として、能動視覚下での次の滑稽な予測を確立している。
関連論文リスト
- Convergent transformations of visual representation in brains and models [0.0]
認知神経科学における根本的な疑問は、視覚的知覚(外界の構造や脳の内部構造)をどう形成するかである。
人間の視覚と人工視覚の両方において、外界の構造によって駆動される視覚的エンコーディングのための収束した計算解を示す。
論文 参考訳(メタデータ) (2025-07-18T14:13:54Z) - Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification [3.1208151315473622]
本稿では,人間の視線時系列データセットであるGaze-CIFAR-10と2列視線エンコーダを紹介する。
並行して、視覚変換器(ViT)を用いて画像内容のシーケンシャルな表現を学習する。
画像特徴表現における不正確な局所化を効果的に補正する。
論文 参考訳(メタデータ) (2025-04-08T00:40:46Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Continual Neural Mapping: Learning An Implicit Scene Representation from
Sequential Observations [24.354073167898555]
逐次的な観察から暗黙的なシーン表現の連続的な学習に向けてさらに一歩進める。
一つのネットワークが、破滅的な忘れをせずに、時間とともに連続的にシーンの幾何学を表現できることを初めて示す。
論文 参考訳(メタデータ) (2021-08-12T16:57:29Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。