論文の概要: Cost-Efficient Multi-Scale Fovea for Semantic-Based Visual Search Attention
- arxiv url: http://arxiv.org/abs/2604.03836v2
- Date: Wed, 08 Apr 2026 18:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.860214
- Title: Cost-Efficient Multi-Scale Fovea for Semantic-Based Visual Search Attention
- Title(参考訳): セマンティックなビジュアル検索注意のためのコスト効率の良いマルチスケールフレーバ
- Authors: João Luzio, Alexandre Bernardino, Plinio Moreno,
- Abstract要約: セマンティックベースのベイズアテンション(SemBA)フレームワークに新しい人工ファーベーションモジュールを適用した。
本研究では,視覚的タスクの精度を損なうことなく,検出関連計算コストを削減することを目的とする。
本研究では,SemBAが実際のヒト卵胞の割合を保ちながら,ヒトの一貫性を密に近似していることを示す。
- 参考スコア(独自算出の注目度): 45.637508678120774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantics are one of the primary sources of top-down preattentive information. Modern deep object detectors excel at extracting such valuable semantic cues from complex visual scenes. However, the size of the visual input to be processed by these detectors can become a bottleneck, particularly in terms of time costs, affecting an artificial attention system's biological plausibility and real-time deployability. Inspired by classical exponential density roll-off topologies, we apply a new artificial foveation module to our novel attention prediction pipeline: the Semantic-based Bayesian Attention (SemBA) framework. We aim at reducing detection-related computational costs without compromising visual task accuracy, thereby making SemBA more biologically plausible. The proposed multi-scale pyramidal field-of-view retains maximum acuity at an innermost level, around a focal point, while gradually increasing distortion for outer levels to mimic peripheral uncertainty via downsampling. In this work we evaluate the performance of our novel Multi-Scale Fovea, incorporated into SemBA, on target-present visual search. We also compare it against other artificial foveal systems, and conduct ablation studies with different deep object detection models to assess the impact of the new topology in terms of computational costs. We experimentally demonstrate that including the new Multi-Scale Fovea module effectively reduces inherent processing costs while improving SemBA's scanpath prediction accuracy. Remarkably, we show that SemBA closely approximates human consistency while retaining the actual human fovea's proportions.
- Abstract(参考訳): セマンティックスはトップダウンの予防情報の主要な情報源の1つである。
現代のディープオブジェクト検出器は、複雑な視覚シーンからこのような貴重なセマンティックな手がかりを抽出することに長けている。
しかし、これらの検出器によって処理される視覚入力のサイズは、特に時間的コストの観点からボトルネックとなり、人工的な注意システムの生物学的な可視性とリアルタイムな展開性に影響を与える。
古典的な指数密度ロールオフトポロジに着想を得て、新しい注目予測パイプライン、セマンティックベースのベイズ注意(Semantic-based Bayesian Attention, SemBA)フレームワークに新しい人工的フェーベーションモジュールを適用した。
本研究では,視覚的タスクの精度を損なうことなく,検出関連計算コストを削減することを目的としている。
提案したマルチスケールピラミッド場は、焦点付近の最も奥深くで最大視力を維持しつつ、徐々に外層への歪みを増大させ、ダウンサンプリングによる周辺不確実性を模倣する。
本研究では,SemBAに組み込まれた小説『Multi-Scale Fovea』のターゲット画像検索における性能評価を行う。
また,他の人工卵胞システムと比較し,異なる深度物体検出モデルを用いてアブレーション研究を行い,計算コストの観点から新しいトポロジの影響を評価する。
我々は,新しいマルチスケールFoveaモジュールを組み込むことで,SemBAのスキャンパス予測精度を改善しつつ,処理コストを効果的に削減できることを実験的に実証した。
注目すべきは、SemBAが実際のヒト卵胞の割合を維持しながら、ヒトの一貫性を密に近似していることである。
関連論文リスト
- Enhancing Eye Feature Estimation from Event Data Streams through Adaptive Inference State Space Modeling [68.1289208938377]
イベントベースのデータストリームから目の特徴抽出を効率的かつ低エネルギーで行うことができる。
本稿では,特徴抽出のための新しいアーキテクチャである強調型推論状態空間モデル(AISSM)を紹介する。
また、トレーニング効率を向上させる新しい学習手法を開発・評価する。
論文 参考訳(メタデータ) (2026-03-14T18:47:08Z) - Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model [51.83639270669481]
ハイパースペクトル画像(HSI)における教師なし異常検出は、背景から未知のターゲットを検出することを目的としている。
HSI研究は、HSIの高次元特性と高密度サンプリングベーストレーニングパラダイムにより、計算コストの急激さによって妨げられている。
計算コストを大幅に削減する非対称コンセンサス状態空間モデル(ACMamba)を提案する。
論文 参考訳(メタデータ) (2025-04-16T05:33:42Z) - Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - Learning Monocular Depth from Events via Egomotion Compensation [20.388521240421948]
イベントカメラはニューロモルフィックにインスパイアされたセンサーで、明るさの変化をわずかに、非同期に報告する。
本研究では,様々な深度仮説の確率を運動補償の効果で明確に決定する,解釈可能な単眼深度推定フレームワークを提案する。
提案手法は, 絶対相対誤差距離において, 最先端手法を最大10%向上させる。
論文 参考訳(メタデータ) (2024-12-26T05:41:18Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - EndoDepthL: Lightweight Endoscopic Monocular Depth Estimation with
CNN-Transformer [0.0]
我々は,CNNとTransformerを統合してマルチスケール深度マップを推定する,EndoDepthLという新しい軽量ソリューションを提案する。
提案手法は,ネットワークアーキテクチャの最適化,マルチスケール拡張畳み込み,マルチチャネルアテンション機構の導入を含む。
内視鏡画像における単眼深度推定の性能をよりよく評価するために,新しい複雑性評価指標を提案する。
論文 参考訳(メタデータ) (2023-08-04T21:38:29Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。