論文の概要: Foveation in the Era of Deep Learning
- arxiv url: http://arxiv.org/abs/2312.01450v1
- Date: Sun, 3 Dec 2023 16:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:20:21.426400
- Title: Foveation in the Era of Deep Learning
- Title(参考訳): 深層学習時代のフォベーション
- Authors: George Killick, Paul Henderson, Paul Siebert and Gerardo
Aragon-Camarasa
- Abstract要約: 本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
- 参考スコア(独自算出の注目度): 6.602118206533142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we tackle the challenge of actively attending to visual scenes
using a foveated sensor. We introduce an end-to-end differentiable foveated
active vision architecture that leverages a graph convolutional network to
process foveated images, and a simple yet effective formulation for foveated
image sampling. Our model learns to iteratively attend to regions of the image
relevant for classification. We conduct detailed experiments on a variety of
image datasets, comparing the performance of our method with previous
approaches to foveated vision while measuring how the impact of different
choices, such as the degree of foveation, and the number of fixations the
network performs, affect object recognition performance. We find that our model
outperforms a state-of-the-art CNN and foveated vision architectures of
comparable parameters and a given pixel or computation budget
- Abstract(参考訳): 本稿では,フェーブ付きセンサを用いた視覚シーンへの積極的に参加する課題に取り組む。
本稿では,グラフ畳み込みネットワークを利用して焦点画像を処理するエンドツーエンドの微分可能焦点画像アーキテクチャと,焦点画像サンプリングのための簡易かつ効果的な定式化を提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
本研究では,様々な画像データセットについて詳細な実験を行い,提案手法の性能とフォベーテッドビジョンに対する従来の手法との比較を行い,フォベーションの程度やネットワークのフィクスレーション数など,異なる選択の影響が物体認識性能に与える影響を計測した。
我々のモデルは最先端のCNNと、同等のパラメータと所定のピクセルや計算予算の視覚アーキテクチャより優れています。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Saliency-based Video Summarization for Face Anti-spoofing [4.730428911461921]
本稿では,ビジュアル・サリエンシを活用して,ディープラーニングモデルの性能向上を目的とした,顔のアンチ・スプーフィング検出のための映像要約手法を提案する。
特に、ソース画像のラプラシアンフィルタ出力とウィーナーフィルタ出力との差から、サリエンシ情報を抽出する。
重み付けマップは、画像中の各ピクセルの重要性を示す唾液度情報に基づいて計算される。
論文 参考訳(メタデータ) (2023-08-23T18:08:32Z) - Learning to search for and detect objects in foveal images using deep
learning [3.655021726150368]
本研究では,画像中のクラスを探索する人間の客観的な注意をエミュレートする固定予測モデルを用いる。
そして、各固定点のフェーブされた画像を分類して、シーンにターゲットが存在するか否かを判定する。
本稿では,2つのタスク間の知識伝達を可能とし,修正予測と検出を同時に行うことができる新しいデュアルタスクモデルを提案する。
論文 参考訳(メタデータ) (2023-04-12T09:50:25Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。
一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。
近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文 参考訳(メタデータ) (2021-05-10T19:00:49Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。