Fugu-MT 論文翻訳(概要): Eye vs. AI: Human Gaze and Model Attention in Video Memorability

論文の概要: Eye vs. AI: Human Gaze and Model Attention in Video Memorability

arxiv url: http://arxiv.org/abs/2311.16484v1
Date: Sun, 26 Nov 2023 05:14:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 20:13:14.196983
Title: Eye vs. AI: Human Gaze and Model Attention in Video Memorability
Title（参考訳）: eye vs. ai: 映像記憶における人間の視線とモデル注意
Authors: Prajneya Kumar, Eshika Khandelwal, Makarand Tapaswi, Vishnu Sreekumar
Abstract要約: 本稿では,ビデオの暗記性予測において,SoTAのパフォーマンスと一致する自然主義的時間的注意を伴うトランスフォーマーモデルを提案する。小型眼球追跡実験により収集した人間の視線固定密度マップに対するモデル注意力の比較を行った。我々は,本モデルが人間の時間的注意パターンを模倣し,初期フレームに重きを置くことを観察した。
参考スコア（独自算出の注目度）: 22.718191366938278
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding the factors that determine video memorability has important applications in areas such as educational technology and advertising. Towards this goal, we investigate the semantic and temporal attention mechanisms underlying video memorability. We propose a Transformer-based model with spatio-temporal attention that matches SoTA performance on video memorability prediction on a large naturalistic video dataset. More importantly, the self-attention patterns show us where the model looks to predict memorability. We compare model attention against human gaze fixation density maps collected through a small-scale eye-tracking experiment where humans perform a video memory task. Quantitative saliency metrics show that the model attention and human gaze follow similar patterns. Furthermore, while panoptic segmentation confirms that the model and humans attend more to thing classes, stuff classes that receive increased/decreased attention tend to have higher memorability scores. We also observe that the model assigns greater importance to the initial frames, mimicking temporal attention patterns found in humans.
Abstract（参考訳）: ビデオの記憶可能性を決定する要因を理解することは、教育技術や広告などの分野で重要な応用となる。この目的に向けて,映像の記憶可能性を支える意味的および時間的注意機構について検討する。本研究では,大規模映像データセットにおける映像記憶性予測におけるsota性能に適合する時空間的注意を持つ変圧器モデルを提案する。さらに重要なのは、自己注意パターンは、モデルが記憶可能性を予測する場所を示しています。小型眼球追跡実験により収集された人間の視線固定密度マップに対するモデル注意力の比較を行った。定量的塩分濃度指標は、モデル注意と人間の視線が類似したパターンに従うことを示している。さらに, パノプティカルセグメンテーションでは, モデルや人間の方がモノのクラスに多く参加していることが確認されているが, 注目度の増加/減少するクラスは, 記憶可能性スコアが高い傾向にある。また,本モデルが人間の時間的注意パターンを模倣し,初期フレームに重きを置くことも観察した。

関連論文リスト

Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文参考訳（メタデータ） (2024-10-24T17:58:05Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Do Transformer Models Show Similar Attention Patterns to Task-Specific Human Gaze? [0.0]
最先端のNLPモデルにおける自己注意機能は、人間の注意と相関することが多い。本研究では、大規模事前学習言語モデルにおける自己注意が、人間の注意の古典的認知モデルとしての課題読解における人間の眼球固定パターンの予測であるかどうかを検討する。
論文参考訳（メタデータ） (2022-04-25T08:23:13Z)
STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文参考訳（メタデータ） (2022-04-20T13:42:51Z)
Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文参考訳（メタデータ） (2021-04-17T04:52:46Z)
Coarse Temporal Attention Network (CTA-Net) for Driver's Activity Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文参考訳（メタデータ） (2021-01-17T10:15:37Z)
GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。 2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文参考訳（メタデータ） (2020-12-15T18:58:21Z)
Multimodal Memorability: Modeling Effects of Semantics and Decay on Video Memorability [17.00485879591431]
我々は、人間の視覚事象記憶の予測モデルを構築し、その記憶が時間の経過とともに崩壊する方法について述べる。我々はMemento10kを紹介した。Memento10kは、人間のアノテーションを異なる視聴遅延で含む新しい動的ビデオ記憶可能性データセットである。
論文参考訳（メタデータ） (2020-09-05T17:24:02Z)
Knowing What, Where and When to Look: Efficient Video Action Modeling with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。 What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-04-02T21:48:11Z)
Detecting Attended Visual Targets in Video [25.64146711657225]
実世界の視線行動の複雑な動的パターンを含む新しいアノテーション付きデータセットVideoAttentionTargetを導入する。実験の結果,ビデオの動的注意を効果的に推測できることがわかった。ウェアラブルカメラやアイトラッカーを使わずに臨床関連視線行動を自動的に分類する最初の結果を得た。
論文参考訳（メタデータ） (2020-03-05T09:29:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。