論文の概要: FOVI: A biologically-inspired foveated interface for deep vision models
- arxiv url: http://arxiv.org/abs/2602.03766v1
- Date: Tue, 03 Feb 2026 17:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.602928
- Title: FOVI: A biologically-inspired foveated interface for deep vision models
- Title(参考訳): FOVI:ディープビジョンモデルのための生物学的にインスパイアされたインタフェース
- Authors: Nicholas M. Blauch, George A. Alvarez, Talia Konkle,
- Abstract要約: 本研究では,ヒト網膜と一次視覚野をベースとした視覚インタフェースを提案する。
受容場は、センサ多様体上のk-アネレスト近傍(kNN)として定義される。
本稿では,(1)エンドツーエンドのkNN-畳み込みアーキテクチャ,(2)基礎となるDINOv3 ViTモデルのファベレーテッド適応の2つのユースケースを示す。
- 参考スコア(独自算出の注目度): 5.6075902312642745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human vision is foveated, with variable resolution peaking at the center of a large field of view; this reflects an efficient trade-off for active sensing, allowing eye-movements to bring different parts of the world into focus with other parts of the world in context. In contrast, most computer vision systems encode the visual world at a uniform resolution, raising challenges for processing full-field high-resolution images efficiently. We propose a foveated vision interface (FOVI) based on the human retina and primary visual cortex, that reformats a variable-resolution retina-like sensor array into a uniformly dense, V1-like sensor manifold. Receptive fields are defined as k-nearest-neighborhoods (kNNs) on the sensor manifold, enabling kNN-convolution via a novel kernel mapping technique. We demonstrate two use cases: (1) an end-to-end kNN-convolutional architecture, and (2) a foveated adaptation of the foundational DINOv3 ViT model, leveraging low-rank adaptation (LoRA). These models provide competitive performance at a fraction of the computational cost of non-foveated baselines, opening pathways for efficient and scalable active sensing for high-resolution egocentric vision. Code and pre-trained models are available at https://github.com/nblauch/fovi and https://huggingface.co/fovi-pytorch.
- Abstract(参考訳): これは、アクティブセンシングのための効率的なトレードオフを反映しており、眼球運動は世界の異なる部分を文脈において世界の他の部分に焦点を合わせることを可能にする。
対照的に、ほとんどのコンピュータビジョンシステムは、一様解像度で視覚世界をエンコードし、フルフィールドの高解像度画像を効率的に処理するための課題を提起する。
本稿では,ヒト網膜と一次視覚野をベースとしたFoveated Vision Interface(FOVI)を提案し,可変解像度網膜様センサアレイを一様密度のV1様センサ多様体に再構成する。
受容場は、センサ多様体上のk-nearest-neighborhood(kNN)として定義され、新しいカーネルマッピング技術を通じてkNN-convolutionを可能にする。
本稿では,(1)エンドツーエンドのkNN-畳み込みアーキテクチャ,(2)低ランク適応(LoRA)を利用した基礎的DINOv3 ViTモデルのファベレート適応,という2つのユースケースを示す。
これらのモデルは、高解像度の自我中心視のための効率的でスケーラブルな能動センシングのための開口経路として、非探索ベースラインの計算コストのごく一部で競争性能を提供する。
コードと事前トレーニングされたモデルは、https://github.com/nblauch/foviとhttps://huggingface.co/fovi-pytorchで入手できる。
関連論文リスト
- DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model [2.163881720692685]
学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。
DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善した。
本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
論文 参考訳(メタデータ) (2025-07-17T14:09:34Z) - A Sensorimotor Vision Transformer [0.0]
Sensorimotor Transformer (SMT) は人間の眼球運動に触発された視覚モデルである。
SMTは、本質的な2次元(i2D)特徴に基づいて、最も健全なパッチを特定し、選択する。
論文 参考訳(メタデータ) (2025-04-03T12:37:44Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - FViT: A Focal Vision Transformer with Gabor Filter [6.237269022600682]
視覚変換器とガボルフィルタを組み合わせる利点について論じる。
畳み込みを用いた学習可能なGaborフィルタ(LGF)を提案する。
バイオニックフォカルビジョン(BFV)ブロックはLGFに基づいて設計されている。
Focal Vision Transformers (FViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリーを開発した。
論文 参考訳(メタデータ) (2024-02-17T15:03:25Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。