論文の概要: Learning to search for and detect objects in foveal images using deep
learning
- arxiv url: http://arxiv.org/abs/2304.05741v1
- Date: Wed, 12 Apr 2023 09:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 15:30:13.059028
- Title: Learning to search for and detect objects in foveal images using deep
learning
- Title(参考訳): 深層学習を用いた胎児画像中の物体の探索と検出の学習
- Authors: Beatriz Paula and Plinio Moreno
- Abstract要約: 本研究では,画像中のクラスを探索する人間の客観的な注意をエミュレートする固定予測モデルを用いる。
そして、各固定点のフェーブされた画像を分類して、シーンにターゲットが存在するか否かを判定する。
本稿では,2つのタスク間の知識伝達を可能とし,修正予測と検出を同時に行うことができる新しいデュアルタスクモデルを提案する。
- 参考スコア(独自算出の注目度): 3.655021726150368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human visual system processes images with varied degrees of resolution,
with the fovea, a small portion of the retina, capturing the highest acuity
region, which gradually declines toward the field of view's periphery. However,
the majority of existing object localization methods rely on images acquired by
image sensors with space-invariant resolution, ignoring biological attention
mechanisms.
As a region of interest pooling, this study employs a fixation prediction
model that emulates human objective-guided attention of searching for a given
class in an image. The foveated pictures at each fixation point are then
classified to determine whether the target is present or absent in the scene.
Throughout this two-stage pipeline method, we investigate the varying results
obtained by utilizing high-level or panoptic features and provide a
ground-truth label function for fixation sequences that is smoother,
considering in a better way the spatial structure of the problem.
Finally, we present a novel dual task model capable of performing fixation
prediction and detection simultaneously, allowing knowledge transfer between
the two tasks. We conclude that, due to the complementary nature of both tasks,
the training process benefited from the sharing of knowledge, resulting in an
improvement in performance when compared to the previous approach's baseline
scores.
- Abstract(参考訳): 人間の視覚システムは解像度の異なる画像を処理し、葉は網膜のごく一部であり、最高視力領域を捉え、視野の周囲に向かって徐々に減少する。
しかし、既存のオブジェクトローカライゼーション手法の大半は、空間不変解像度の画像センサが取得した画像に依存しており、生物学的注意機構を無視している。
利子プーリングの領域として、画像中の特定のクラスを探索する人間の客観的な注意をエミュレートする固定化予測モデルを用いる。
そして、各固定点の焦点画像に分類して、そのシーンに目標が存在するか否かを判定する。
この2段階パイプライン方式を通じて,高レベルあるいはパノプティカルな特徴を生かし,よりスムーズな固定列に対する地上構造ラベル関数を,より空間的構造を考慮した形で提案する。
最後に、固定予測と検出を同時に行うことができ、2つのタスク間の知識伝達を可能にする新しいデュアルタスクモデルを提案する。
両タスクの相補的な性質から,学習プロセスは知識の共有から恩恵を受け,前回のアプローチのベースラインスコアと比較した場合のパフォーマンスが向上することがわかった。
関連論文リスト
- Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - Hybrid Optimized Deep Convolution Neural Network based Learning Model
for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。
近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。
本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。
提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文 参考訳(メタデータ) (2022-03-02T04:39:37Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Unsupervised Learning of Landmarks based on Inter-Intra Subject
Consistencies [72.67344725725961]
本稿では,物体間ランドマーク成分を顔画像に組み込むことにより,画像ランドマーク発見のための教師なし学習手法を提案する。
これは、補助的な主題関連構造に基づいて、元の主題のランドマークを変換するオブジェクト間マッピングモジュールによって達成される。
変換された画像から元の被写体に戻るために、ランドマーク検出器は、対のオブジェクト内画像と対のオブジェクト間画像の両方に一貫した意味を含む空間的位置を学習せざるを得ない。
論文 参考訳(メタデータ) (2020-04-16T20:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。