論文の概要: A Simple and efficient deep Scanpath Prediction
- arxiv url: http://arxiv.org/abs/2112.04610v1
- Date: Wed, 8 Dec 2021 22:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 22:51:13.387400
- Title: A Simple and efficient deep Scanpath Prediction
- Title(参考訳): 単純で効率的な深部スキャンパス予測
- Authors: Mohamed Amine Kerkouri, Aladine Chetouani
- Abstract要約: 我々は、単純な完全な畳み込み回帰的な方法で、共通のディープラーニングアーキテクチャーを使用することの効率について検討する。
これらのモデルが2つのデータセットのスキャンパスをいかに予測できるかを実験する。
また、実験におけるパフォーマンスに基づいて、異なるレバレッジされたバックボーンアーキテクチャを比較して、どのアーキテクチャがタスクに最も適しているかを推定する。
- 参考スコア(独自算出の注目度): 6.294759639481189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual scanpath is the sequence of fixation points that the human gaze
travels while observing an image, and its prediction helps in modeling the
visual attention of an image. To this end several models were proposed in the
literature using complex deep learning architectures and frameworks. Here, we
explore the efficiency of using common deep learning architectures, in a simple
fully convolutional regressive manner. We experiment how well these models can
predict the scanpaths on 2 datasets. We compare with other models using
different metrics and show competitive results that sometimes surpass previous
complex architectures. We also compare the different leveraged backbone
architectures based on their performances on the experiment to deduce which
ones are the most suitable for the task.
- Abstract(参考訳): 視覚スキャンパスは、人間の視線が画像を観察しながら移動する固定点のシーケンスであり、その予測は画像の視覚的注意をモデル化するのに役立つ。
この目的のために、複雑なディープラーニングアーキテクチャとフレームワークを使用して、文献でいくつかのモデルが提案された。
本稿では,一般的なディープラーニングアーキテクチャを,単純な完全畳み込み回帰的に活用する効率について検討する。
これらのモデルが2つのデータセットでスカンパスをどの程度予測できるか実験する。
異なるメトリクスを使用した他のモデルと比較し、しばしば以前の複雑なアーキテクチャを上回る競合結果を示す。
また、異なる活用されたバックボーンアーキテクチャを実験のパフォーマンスに基づいて比較し、どのアーキテクチャがタスクに最も適しているかを推定します。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - Context-based Deep Learning Architecture with Optimal Integration Layer
for Image Parsing [0.0]
提案した3層コンテキストベースディープアーキテクチャは、コンテキストを視覚情報と明示的に統合することができる。
ベンチマークデータセットで評価した場合の実験結果は有望である。
論文 参考訳(メタデータ) (2022-04-13T07:35:39Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Towards Interpretable Deep Metric Learning with Structural Matching [86.16700459215383]
より透過的な埋め込み学習のための深層解釈可能なメトリック学習(DIML)法を提案する。
本手法は,既製のバックボーンネットワークやメトリック学習手法に適用可能な,モデルに依存しない手法である。
我々は,CUB200-2011,Cars196,Stanford Online Productsの3つの大規模メトリクス学習ベンチマークで評価を行った。
論文 参考訳(メタデータ) (2021-08-12T17:59:09Z) - NASE: Learning Knowledge Graph Embedding for Link Prediction via Neural
Architecture Search [9.634626241415916]
リンク予測は、知識グラフ(KG)におけるエンティティ間の欠落した接続を予測するタスクである
これまでの研究では、Automated Machine Learning(AutoML)を使用して、データセットに最適なモデルを探していた。
リンク予測タスクのための新しいニューラルネットワーク探索(NAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:34:09Z) - Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge
Graph Embedding Models Under a Unified Framework [31.35912529064612]
我々はPyKEENソフトウェアパッケージで21のインタラクションモデルを再実装し評価した。
4つのデータセットに対して、数千の実験と24,804のGPU時間で大規模なベンチマークを行いました。
論文 参考訳(メタデータ) (2020-06-23T22:30:52Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。