論文の概要: Predicting Visual Attention in Graphic Design Documents
- arxiv url: http://arxiv.org/abs/2407.02439v1
- Date: Tue, 2 Jul 2024 17:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:27:11.833621
- Title: Predicting Visual Attention in Graphic Design Documents
- Title(参考訳): 図形設計文書における視覚的注意の予測
- Authors: Souradeep Chakraborty, Zijun Wei, Conor Kelton, Seoyoung Ahn, Aruna Balasubramanian, Gregory J. Zelinsky, Dimitris Samaras,
- Abstract要約: 図形図形文書を自由に閲覧する際の視覚的注意を予測できるモデルを提案する。
我々の研究は、文書領域を視線で固定する空間的注意と動的時間的秩序の両方を予測する最初の試みである。
- 参考スコア(独自算出の注目度): 25.880463008363826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a model for predicting visual attention during the free viewing of graphic design documents. While existing works on this topic have aimed at predicting static saliency of graphic designs, our work is the first attempt to predict both spatial attention and dynamic temporal order in which the document regions are fixated by gaze using a deep learning based model. We propose a two-stage model for predicting dynamic attention on such documents, with webpages being our primary choice of document design for demonstration. In the first stage, we predict the saliency maps for each of the document components (e.g. logos, banners, texts, etc. for webpages) conditioned on the type of document layout. These component saliency maps are then jointly used to predict the overall document saliency. In the second stage, we use these layout-specific component saliency maps as the state representation for an inverse reinforcement learning model of fixation scanpath prediction during document viewing. To test our model, we collected a new dataset consisting of eye movements from 41 people freely viewing 450 webpages (the largest dataset of its kind). Experimental results show that our model outperforms existing models in both saliency and scanpath prediction for webpages, and also generalizes very well to other graphic design documents such as comics, posters, mobile UIs, etc. and natural images.
- Abstract(参考訳): 図形図形文書を自由に閲覧する際の視覚的注意を予測できるモデルを提案する。
本研究は,文書領域を深層学習モデルを用いて視線で固定する空間的注意と動的時間的秩序の両方を予測するための最初の試みである。
本稿では,このような文書に対する動的注意を予測するための2段階モデルを提案する。
最初の段階では、文書レイアウトのタイプに基づいて、各ドキュメントコンポーネント(例えば、Webページのロゴ、バナー、テキストなど)の唾液マップを予測します。
これらのコンポーネントの相性マップは、ドキュメント全体の相性を予測するために共同で使用される。
第2段階では、これらのレイアウト固有のコンポーネント・サリエンシ・マップを、文書閲覧時の修正スキャンパス予測の逆強化学習モデルのための状態表現として使用する。
このモデルをテストするために、41人の目の動きからなる新しいデータセットを収集し、450のWebページ(この種の最大のデータセット)を自由に閲覧した。
実験結果から,本モデルはWebページの精度とスキャンパス予測の両方において既存モデルよりも優れており,漫画やポスター,モバイルUIなど他のグラフィックデザイン文書や自然画像に非常によく対応していることがわかった。
関連論文リスト
- Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - A Simple and efficient deep Scanpath Prediction [6.294759639481189]
我々は、単純な完全な畳み込み回帰的な方法で、共通のディープラーニングアーキテクチャーを使用することの効率について検討する。
これらのモデルが2つのデータセットのスキャンパスをいかに予測できるかを実験する。
また、実験におけるパフォーマンスに基づいて、異なるレバレッジされたバックボーンアーキテクチャを比較して、どのアーキテクチャがタスクに最も適しているかを推定する。
論文 参考訳(メタデータ) (2021-12-08T22:43:45Z) - Graph-based Deep Generative Modelling for Document Layout Generation [14.907063348987075]
我々は,グラフニューラルネットワーク(GNN)を用いて,高度に可変な文書レイアウトを持つ合成データを生成する深層生成モデルを提案する。
また、管理文書画像上で実験された文書レイアウト生成タスクに対するグラフベースの最初のアプローチである。
論文 参考訳(メタデータ) (2021-07-09T10:49:49Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Incorporating Vision Bias into Click Models for Image-oriented Search
Engine [51.192784793764176]
本論文では,画像指向検索エンジンに視覚バイアスが存在することを,位置以外の検査確率に影響する重要な要因と仮定する。
候補文書から抽出した視覚特徴から視覚バイアスを予測するために回帰型emアルゴリズムを用いた。
論文 参考訳(メタデータ) (2021-01-07T10:01:31Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。