論文の概要: Eye vs. AI: Human Gaze and Model Attention in Video Memorability
- arxiv url: http://arxiv.org/abs/2311.16484v1
- Date: Sun, 26 Nov 2023 05:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:13:14.196983
- Title: Eye vs. AI: Human Gaze and Model Attention in Video Memorability
- Title(参考訳): eye vs. ai: 映像記憶における人間の視線とモデル注意
- Authors: Prajneya Kumar, Eshika Khandelwal, Makarand Tapaswi, Vishnu Sreekumar
- Abstract要約: 本稿では,ビデオの暗記性予測において,SoTAのパフォーマンスと一致する自然主義的時間的注意を伴うトランスフォーマーモデルを提案する。
小型眼球追跡実験により収集した人間の視線固定密度マップに対するモデル注意力の比較を行った。
我々は,本モデルが人間の時間的注意パターンを模倣し,初期フレームに重きを置くことを観察した。
- 参考スコア(独自算出の注目度): 22.718191366938278
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the factors that determine video memorability has important
applications in areas such as educational technology and advertising. Towards
this goal, we investigate the semantic and temporal attention mechanisms
underlying video memorability. We propose a Transformer-based model with
spatio-temporal attention that matches SoTA performance on video memorability
prediction on a large naturalistic video dataset. More importantly, the
self-attention patterns show us where the model looks to predict memorability.
We compare model attention against human gaze fixation density maps collected
through a small-scale eye-tracking experiment where humans perform a video
memory task. Quantitative saliency metrics show that the model attention and
human gaze follow similar patterns. Furthermore, while panoptic segmentation
confirms that the model and humans attend more to thing classes, stuff classes
that receive increased/decreased attention tend to have higher memorability
scores. We also observe that the model assigns greater importance to the
initial frames, mimicking temporal attention patterns found in humans.
- Abstract(参考訳): ビデオの記憶可能性を決定する要因を理解することは、教育技術や広告などの分野で重要な応用となる。
この目的に向けて,映像の記憶可能性を支える意味的および時間的注意機構について検討する。
本研究では,大規模映像データセットにおける映像記憶性予測におけるsota性能に適合する時空間的注意を持つ変圧器モデルを提案する。
さらに重要なのは、自己注意パターンは、モデルが記憶可能性を予測する場所を示しています。
小型眼球追跡実験により収集された人間の視線固定密度マップに対するモデル注意力の比較を行った。
定量的塩分濃度指標は、モデル注意と人間の視線が類似したパターンに従うことを示している。
さらに, パノプティカルセグメンテーションでは, モデルや人間の方がモノのクラスに多く参加していることが確認されているが, 注目度の増加/減少するクラスは, 記憶可能性スコアが高い傾向にある。
また,本モデルが人間の時間的注意パターンを模倣し,初期フレームに重きを置くことも観察した。
関連論文リスト
- Do Transformer Models Show Similar Attention Patterns to Task-Specific
Human Gaze? [0.0]
最先端のNLPモデルにおける自己注意機能は、人間の注意と相関することが多い。
本研究では、大規模事前学習言語モデルにおける自己注意が、人間の注意の古典的認知モデルとしての課題読解における人間の眼球固定パターンの予測であるかどうかを検討する。
論文 参考訳(メタデータ) (2022-04-25T08:23:13Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。
モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文 参考訳(メタデータ) (2021-04-17T04:52:46Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Multimodal Memorability: Modeling Effects of Semantics and Decay on
Video Memorability [17.00485879591431]
我々は、人間の視覚事象記憶の予測モデルを構築し、その記憶が時間の経過とともに崩壊する方法について述べる。
我々はMemento10kを紹介した。Memento10kは、人間のアノテーションを異なる視聴遅延で含む新しい動的ビデオ記憶可能性データセットである。
論文 参考訳(メタデータ) (2020-09-05T17:24:02Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。