論文の概要: SalyPath360: Saliency and Scanpath Prediction Framework for
Omnidirectional Images
- arxiv url: http://arxiv.org/abs/2201.00096v1
- Date: Sat, 1 Jan 2022 02:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 01:42:41.881217
- Title: SalyPath360: Saliency and Scanpath Prediction Framework for
Omnidirectional Images
- Title(参考訳): salypath360: 全方位画像に対するsaliency and scanpath prediction framework
- Authors: Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Mohamed
Sayeh
- Abstract要約: 本稿では,全方位画像の視覚的注意を予測するための新しい枠組みを提案する。
このフレームワークは、アテンションモジュールによって強化された完全なエンコーダ・デコーダ畳み込みニューラルネットワークを実装し、代表的サリエンシマップを生成する。
その結果,Salient360!データセットの最先端手法と比較した。
- 参考スコア(独自算出の注目度): 4.740962650068886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new framework to predict visual attention of
omnidirectional images. The key setup of our architecture is the simultaneous
prediction of the saliency map and a corresponding scanpath for a given
stimulus. The framework implements a fully encoder-decoder convolutional neural
network augmented by an attention module to generate representative saliency
maps. In addition, an auxiliary network is employed to generate probable
viewport center fixation points through the SoftArgMax function. The latter
allows to derive fixation points from feature maps. To take advantage of the
scanpath prediction, an adaptive joint probability distribution model is then
applied to construct the final unbiased saliency map by leveraging the encoder
decoder-based saliency map and the scanpath-based saliency heatmap. The
proposed framework was evaluated in terms of saliency and scanpath prediction,
and the results were compared to state-of-the-art methods on Salient360!
dataset. The results showed the relevance of our framework and the benefits of
such architecture for further omnidirectional visual attention prediction
tasks.
- Abstract(参考訳): 本稿では,全方位画像の視覚的注意度を予測する新しい枠組みを提案する。
アーキテクチャのキーとなる設定は、与えられた刺激に対するサリエンシマップと対応するスキャンパスの同時予測である。
このフレームワークは、注意モジュールによって拡張された完全エンコーダ-デコーダ畳み込みニューラルネットワークを実装し、代表的給与マップを生成する。
また、softargmax機能を介してビューポートセンター固定点を生成するために補助ネットワークを用いる。
後者は特徴写像から固定点を導出することができる。
スキャンパス予測の利点を生かし,エンコーダデコーダに基づくサリエンシマップとスキャンパスに基づくサリエンシ・ヒートマップを利用して,最終的なアンバイアス・サリエンシ・マップを構築するための適応型ジョイント確率分布モデルを適用した。
提案手法は,saliencyとscanpathの予測の観点から評価され,salient360!データセットの最先端手法と比較した。
その結果,全方位視覚注意予測タスクにおいて,我々のフレームワークの妥当性と,そのようなアーキテクチャの利点が示された。
関連論文リスト
- 3D LiDAR Mapping in Dynamic Environments Using a 4D Implicit Neural Representation [33.92758288570465]
正確な地図の構築は、自動運転車の信頼性の高いローカライゼーション、計画、ナビゲーションを可能にする重要なビルディングブロックである。
我々は、4Dシーンを新しい暗黙的ニューラルマップ表現に符号化する。
提案手法は, 高精度で完全な3次元地図を再構成しながら, 入力点雲の動的部分を除去することができる。
論文 参考訳(メタデータ) (2024-05-06T11:46:04Z) - Radio Map Estimation -- An Open Dataset with Directive Transmitter
Antennas and Initial Experiments [49.61405888107356]
実世界の現実的な都市地図とオープンなデータソースからの航空画像とともに、シミュレーションされた経路損失無線マップのデータセットをリリースする。
モデルアーキテクチャ,入力特徴設計,航空画像からの無線マップの推定に関する実験を行った。
論文 参考訳(メタデータ) (2024-01-12T14:56:45Z) - Learning Saliency From Fixations [0.9208007322096533]
本稿では, 画像の並列デコードを利用して, 修正マップからのみサリエンシを学習する, 画像中のサリエンシ予測のための新しいアプローチを提案する。
我々のアプローチは、Saliency TRansformer (SalTR) と呼ばれ、SaliconとMIT300ベンチマークの最先端のアプローチと同等のスコアを得る。
論文 参考訳(メタデータ) (2023-11-23T16:04:41Z) - Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes [38.157373733083894]
本稿では,ニューラルネットワークによる任意のメッシュの断片的線形マッピングを正確に予測するフレームワークを提案する。
このフレームワークは、グローバルな形状記述子に条件付けされた単一点の行列の予測に神経的な側面を還元することに基づいている。
個々のメッシュの固有の勾配領域で操作することで、フレームワークは高度に正確なマッピングを予測できる。
論文 参考訳(メタデータ) (2022-05-05T19:51:13Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - A Simple and efficient deep Scanpath Prediction [6.294759639481189]
我々は、単純な完全な畳み込み回帰的な方法で、共通のディープラーニングアーキテクチャーを使用することの効率について検討する。
これらのモデルが2つのデータセットのスキャンパスをいかに予測できるかを実験する。
また、実験におけるパフォーマンスに基づいて、異なるレバレッジされたバックボーンアーキテクチャを比較して、どのアーキテクチャがタスクに最も適しているかを推定する。
論文 参考訳(メタデータ) (2021-12-08T22:43:45Z) - SALYPATH: A Deep-Based Architecture for visual attention prediction [5.068678962285629]
視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では, 画像の走査パスを, サリエンシモデルの特徴を通して効率的に予測する, いわゆるSALYPATHを提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
論文 参考訳(メタデータ) (2021-06-29T08:53:51Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Learning Lane Graph Representations for Motion Forecasting [92.88572392790623]
生の地図データからレーングラフを構築し,地図構造を保存する。
我々は,アクター・トゥ・レーン,レーン・トゥ・レーン,レーン・トゥ・アクター,アクター・トゥ・アクターの4種類のインタラクションからなる融合ネットワークを利用する。
提案手法は,大規模Argoverse運動予測ベンチマークにおいて,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-27T17:59:49Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z) - Voxel Map for Visual SLAM [57.07800982410967]
視覚SLAMのための点を効率的にマッピングするボクセルマップ表現を提案する。
本手法は,カメラの視野に落下することを幾何的に保証し,隠蔽点を特定・除去できる。
実験結果から,我々のボクセルマップ表現は5sの地図と同等に効率的であり,EuRoCデータセット上での局所化精度(平均46%の改善)が有意に高いことがわかった。
論文 参考訳(メタデータ) (2020-03-04T18:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。