論文の概要: Seeing Eye to AI: Comparing Human Gaze and Model Attention in Video Memorability
- arxiv url: http://arxiv.org/abs/2311.16484v2
- Date: Tue, 05 Nov 2024 16:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:56:35.508764
- Title: Seeing Eye to AI: Comparing Human Gaze and Model Attention in Video Memorability
- Title(参考訳): AIに目を向ける - 人間の視線とビデオ記憶可能性におけるモデル注意の比較
- Authors: Prajneya Kumar, Eshika Khandelwal, Makarand Tapaswi, Vishnu Sreekumar,
- Abstract要約: 我々は,ビデオの暗記性予測において,時間的注意をTASo(State-of-the-art)のパフォーマンスに合わせることなく特徴を解析できる,シンプルなCNN+Transformerアーキテクチャを採用する。
本研究は,ヒトが記憶課題を遂行する視線追跡研究を通じて,人間の定着に対するモデル注意度を比較した。
- 参考スコア(独自算出の注目度): 21.44002657362493
- License:
- Abstract: Understanding what makes a video memorable has important applications in advertising or education technology. Towards this goal, we investigate spatio-temporal attention mechanisms underlying video memorability. Different from previous works that fuse multiple features, we adopt a simple CNN+Transformer architecture that enables analysis of spatio-temporal attention while matching state-of-the-art (SoTA) performance on video memorability prediction. We compare model attention against human gaze fixations collected through a small-scale eye-tracking study where humans perform the video memory task. We uncover the following insights: (i) Quantitative saliency metrics show that our model, trained only to predict a memorability score, exhibits similar spatial attention patterns to human gaze, especially for more memorable videos. (ii) The model assigns greater importance to initial frames in a video, mimicking human attention patterns. (iii) Panoptic segmentation reveals that both (model and humans) assign a greater share of attention to things and less attention to stuff as compared to their occurrence probability.
- Abstract(参考訳): ビデオの記憶に残るものを理解することは、広告や教育技術に重要な応用をもたらす。
本研究の目的は,ビデオの記憶可能性に根ざした時空間的注意機構を検討することである。
複数の特徴を融合させる以前の研究と異なり、ビデオの記憶可能性予測にSoTAのパフォーマンスを一致させながら時空間の注意を解析できる単純なCNN+Transformerアーキテクチャを採用している。
小型の視線追跡研究により収集された人間の視線修正に対するモデル注意力の比較を行った。
私たちは以下の洞察を明らかにしました。
(i) 定量的唾液度測定値から, 記憶可能性スコアの予測のみを訓練したモデルでは, 人間の視線に類似した空間的注意パターンが示され, 特に記憶力のあるビデオでは顕著であった。
(II)このモデルは、人間の注意パターンを模倣して、ビデオの初期フレームにより大きな重要性を割り当てる。
三 パノプティカルセグメンテーションにより、(モデルと人間の両方が)物により多くの注意を割り当て、その発生確率よりも物に注意を向けないことが明らかとなった。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Do Transformer Models Show Similar Attention Patterns to Task-Specific
Human Gaze? [0.0]
最先端のNLPモデルにおける自己注意機能は、人間の注意と相関することが多い。
本研究では、大規模事前学習言語モデルにおける自己注意が、人間の注意の古典的認知モデルとしての課題読解における人間の眼球固定パターンの予測であるかどうかを検討する。
論文 参考訳(メタデータ) (2022-04-25T08:23:13Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。
モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文 参考訳(メタデータ) (2021-04-17T04:52:46Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Multimodal Memorability: Modeling Effects of Semantics and Decay on
Video Memorability [17.00485879591431]
我々は、人間の視覚事象記憶の予測モデルを構築し、その記憶が時間の経過とともに崩壊する方法について述べる。
我々はMemento10kを紹介した。Memento10kは、人間のアノテーションを異なる視聴遅延で含む新しい動的ビデオ記憶可能性データセットである。
論文 参考訳(メタデータ) (2020-09-05T17:24:02Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z) - Detecting Attended Visual Targets in Video [25.64146711657225]
実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。
実験の結果,ビデオの動的注意を効果的に推測できることがわかった。
ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。
論文 参考訳(メタデータ) (2020-03-05T09:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。