論文の概要: Multimodal Memorability: Modeling Effects of Semantics and Decay on
Video Memorability
- arxiv url: http://arxiv.org/abs/2009.02568v1
- Date: Sat, 5 Sep 2020 17:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:00:48.531054
- Title: Multimodal Memorability: Modeling Effects of Semantics and Decay on
Video Memorability
- Title(参考訳): マルチモーダル記憶力:セマンティクスと減衰がビデオ記憶力に及ぼす影響のモデル化
- Authors: Anelise Newman, Camilo Fosco, Vincent Casser, Allen Lee, Barry
McNamara, and Aude Oliva
- Abstract要約: 我々は、人間の視覚事象記憶の予測モデルを構築し、その記憶が時間の経過とともに崩壊する方法について述べる。
我々はMemento10kを紹介した。Memento10kは、人間のアノテーションを異なる視聴遅延で含む新しい動的ビデオ記憶可能性データセットである。
- 参考スコア(独自算出の注目度): 17.00485879591431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key capability of an intelligent system is deciding when events from past
experience must be remembered and when they can be forgotten. Towards this
goal, we develop a predictive model of human visual event memory and how those
memories decay over time. We introduce Memento10k, a new, dynamic video
memorability dataset containing human annotations at different viewing delays.
Based on our findings we propose a new mathematical formulation of memorability
decay, resulting in a model that is able to produce the first quantitative
estimation of how a video decays in memory over time. In contrast with previous
work, our model can predict the probability that a video will be remembered at
an arbitrary delay. Importantly, our approach combines visual and semantic
information (in the form of textual captions) to fully represent the meaning of
events. Our experiments on two video memorability benchmarks, including
Memento10k, show that our model significantly improves upon the best prior
approach (by 12% on average).
- Abstract(参考訳): インテリジェントシステムの重要な機能は、過去の経験からイベントがいつ記憶され、いつ忘れられるかを決定することである。
この目的に向けて,人間の視覚イベント記憶の予測モデルを開発し,その記憶が時間とともにどのように減衰するかを考察する。
memento10kは、異なる視聴遅延で人間のアノテーションを含む、新しい動的ビデオ記憶性データセットである。
そこで本研究では,映像が時間とともに記憶の中でどのように減衰するかを定量的に推定できるモデルを提案する。
従来の研究とは対照的に、我々のモデルは任意の遅延でビデオが記憶される確率を予測することができる。
重要なのは、視覚的な情報と意味的な情報(テキスト的なキャプションの形で)を組み合わせて、イベントの意味を完全に表現するアプローチです。
memento10kを含む2つのビデオ記憶力ベンチマークに関する実験では、私たちのモデルが最高の事前アプローチ(平均で12%)で大幅に改善されていることが分かりました。
関連論文リスト
- Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering [36.00733800536469]
VideoQAは、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
人間は一連のエピソード記憶をアンカーとして使い、推論のための質問に関連する重要な瞬間を素早く見つけることで、簡単に対処できる。
この効果的な推論戦略を模倣するGlance-Focusモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:51:16Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Eye vs. AI: Human Gaze and Model Attention in Video Memorability [22.718191366938278]
本稿では,ビデオの暗記性予測において,SoTAのパフォーマンスと一致する自然主義的時間的注意を伴うトランスフォーマーモデルを提案する。
小型眼球追跡実験により収集した人間の視線固定密度マップに対するモデル注意力の比較を行った。
我々は,本モデルが人間の時間的注意パターンを模倣し,初期フレームに重きを置くことを観察した。
論文 参考訳(メタデータ) (2023-11-26T05:14:06Z) - Memory-and-Anticipation Transformer for Online Action Understanding [52.24561192781971]
本稿では,過去,現在,未来を含む時間構造全体をモデル化する,メモリ予測に基づく新しいパラダイムを提案する。
本稿では,メモリ・アンド・アンティフィケーション・トランスフォーマ(MAT)を提案する。
論文 参考訳(メタデータ) (2023-08-15T17:34:54Z) - Program Generation from Diverse Video Demonstrations [49.202289347899836]
複数の観察を総合することは、歴史的に機械が把握するのが困難であったタスクである。
本稿では,要約と翻訳を同時に行うことで,ビデオデモから一般的なルールを抽出できるモデルを提案する。
論文 参考訳(メタデータ) (2023-02-01T01:51:45Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Associative Memories via Predictive Coding [37.59398215921529]
脳内の連想記憶は感覚ニューロンによって登録された活動パターンを受信し、記憶する。
本稿では,知覚ニューロンを介して外部刺激を受ける階層的生成ネットワークに基づいて,連想記憶を実現する新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2021-09-16T15:46:26Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。