論文の概要: FOVI: A biologically-inspired foveated interface for deep vision models
- arxiv url: http://arxiv.org/abs/2602.03766v1
- Date: Tue, 03 Feb 2026 17:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.602928
- Title: FOVI: A biologically-inspired foveated interface for deep vision models
- Title(参考訳): FOVI:ディープビジョンモデルのための生物学的にインスパイアされたインタフェース
- Authors: Nicholas M. Blauch, George A. Alvarez, Talia Konkle,
- Abstract要約: 本研究では,ヒト網膜と一次視覚野をベースとした視覚インタフェースを提案する。
受容場は、センサ多様体上のk-アネレスト近傍(kNN)として定義される。
本稿では,(1)エンドツーエンドのkNN-畳み込みアーキテクチャ,(2)基礎となるDINOv3 ViTモデルのファベレーテッド適応の2つのユースケースを示す。
- 参考スコア(独自算出の注目度): 5.6075902312642745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human vision is foveated, with variable resolution peaking at the center of a large field of view; this reflects an efficient trade-off for active sensing, allowing eye-movements to bring different parts of the world into focus with other parts of the world in context. In contrast, most computer vision systems encode the visual world at a uniform resolution, raising challenges for processing full-field high-resolution images efficiently. We propose a foveated vision interface (FOVI) based on the human retina and primary visual cortex, that reformats a variable-resolution retina-like sensor array into a uniformly dense, V1-like sensor manifold. Receptive fields are defined as k-nearest-neighborhoods (kNNs) on the sensor manifold, enabling kNN-convolution via a novel kernel mapping technique. We demonstrate two use cases: (1) an end-to-end kNN-convolutional architecture, and (2) a foveated adaptation of the foundational DINOv3 ViT model, leveraging low-rank adaptation (LoRA). These models provide competitive performance at a fraction of the computational cost of non-foveated baselines, opening pathways for efficient and scalable active sensing for high-resolution egocentric vision. Code and pre-trained models are available at https://github.com/nblauch/fovi and https://huggingface.co/fovi-pytorch.
- Abstract(参考訳): これは、アクティブセンシングのための効率的なトレードオフを反映しており、眼球運動は世界の異なる部分を文脈において世界の他の部分に焦点を合わせることを可能にする。
対照的に、ほとんどのコンピュータビジョンシステムは、一様解像度で視覚世界をエンコードし、フルフィールドの高解像度画像を効率的に処理するための課題を提起する。
本稿では,ヒト網膜と一次視覚野をベースとしたFoveated Vision Interface(FOVI)を提案し,可変解像度網膜様センサアレイを一様密度のV1様センサ多様体に再構成する。
受容場は、センサ多様体上のk-nearest-neighborhood(kNN)として定義され、新しいカーネルマッピング技術を通じてkNN-convolutionを可能にする。
本稿では,(1)エンドツーエンドのkNN-畳み込みアーキテクチャ,(2)低ランク適応(LoRA)を利用した基礎的DINOv3 ViTモデルのファベレート適応,という2つのユースケースを示す。
これらのモデルは、高解像度の自我中心視のための効率的でスケーラブルな能動センシングのための開口経路として、非探索ベースラインの計算コストのごく一部で競争性能を提供する。
コードと事前トレーニングされたモデルは、https://github.com/nblauch/foviとhttps://huggingface.co/fovi-pytorchで入手できる。
関連論文リスト
- Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception [93.20637973889434]
本稿では、"パッシブ"から"アクティブ"ビジョンモデルへのパラダイムシフトを促進するための一般的なフレームワークであるAdaptiveNNを紹介する。
AdaptiveNNは、視覚知覚を粗い連続的な意思決定プロセスとして定式化する。
アダプティブNNは、大規模な視覚認識、きめ細かい識別、視覚検索、実際の運転と医療シナリオからの画像処理を含む、9つのタスクにまたがる17のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-09-18T18:25:43Z) - DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model [2.163881720692685]
学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。
DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善した。
本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
論文 参考訳(メタデータ) (2025-07-17T14:09:34Z) - A Sensorimotor Vision Transformer [0.0]
Sensorimotor Transformer (SMT) は人間の眼球運動に触発された視覚モデルである。
SMTは、本質的な2次元(i2D)特徴に基づいて、最も健全なパッチを特定し、選択する。
論文 参考訳(メタデータ) (2025-04-03T12:37:44Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - FViT: A Focal Vision Transformer with Gabor Filter [6.237269022600682]
視覚変換器とガボルフィルタを組み合わせる利点について論じる。
畳み込みを用いた学習可能なGaborフィルタ(LGF)を提案する。
バイオニックフォカルビジョン(BFV)ブロックはLGFに基づいて設計されている。
Focal Vision Transformers (FViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリーを開発した。
論文 参考訳(メタデータ) (2024-02-17T15:03:25Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - MetaAvatar: Learning Animatable Clothed Human Models from Few Depth
Images [60.56518548286836]
新規な入力ポーズから現実的な布の変形を生成するには、通常、水密メッシュや高密度フルボディスキャンが入力として必要とされる。
本研究では, 単眼深度画像のみを考慮し, 制御可能なニューラルSDFとして表現された, リアルな衣服付きアバターを迅速に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T17:30:12Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。