論文の概要: Multimodal Memorability: Modeling Effects of Semantics and Decay on
Video Memorability
- arxiv url: http://arxiv.org/abs/2009.02568v1
- Date: Sat, 5 Sep 2020 17:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:00:48.531054
- Title: Multimodal Memorability: Modeling Effects of Semantics and Decay on
Video Memorability
- Title(参考訳): マルチモーダル記憶力:セマンティクスと減衰がビデオ記憶力に及ぼす影響のモデル化
- Authors: Anelise Newman, Camilo Fosco, Vincent Casser, Allen Lee, Barry
McNamara, and Aude Oliva
- Abstract要約: 我々は、人間の視覚事象記憶の予測モデルを構築し、その記憶が時間の経過とともに崩壊する方法について述べる。
我々はMemento10kを紹介した。Memento10kは、人間のアノテーションを異なる視聴遅延で含む新しい動的ビデオ記憶可能性データセットである。
- 参考スコア(独自算出の注目度): 17.00485879591431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key capability of an intelligent system is deciding when events from past
experience must be remembered and when they can be forgotten. Towards this
goal, we develop a predictive model of human visual event memory and how those
memories decay over time. We introduce Memento10k, a new, dynamic video
memorability dataset containing human annotations at different viewing delays.
Based on our findings we propose a new mathematical formulation of memorability
decay, resulting in a model that is able to produce the first quantitative
estimation of how a video decays in memory over time. In contrast with previous
work, our model can predict the probability that a video will be remembered at
an arbitrary delay. Importantly, our approach combines visual and semantic
information (in the form of textual captions) to fully represent the meaning of
events. Our experiments on two video memorability benchmarks, including
Memento10k, show that our model significantly improves upon the best prior
approach (by 12% on average).
- Abstract(参考訳): インテリジェントシステムの重要な機能は、過去の経験からイベントがいつ記憶され、いつ忘れられるかを決定することである。
この目的に向けて,人間の視覚イベント記憶の予測モデルを開発し,その記憶が時間とともにどのように減衰するかを考察する。
memento10kは、異なる視聴遅延で人間のアノテーションを含む、新しい動的ビデオ記憶性データセットである。
そこで本研究では,映像が時間とともに記憶の中でどのように減衰するかを定量的に推定できるモデルを提案する。
従来の研究とは対照的に、我々のモデルは任意の遅延でビデオが記憶される確率を予測することができる。
重要なのは、視覚的な情報と意味的な情報(テキスト的なキャプションの形で)を組み合わせて、イベントの意味を完全に表現するアプローチです。
memento10kを含む2つのビデオ記憶力ベンチマークに関する実験では、私たちのモデルが最高の事前アプローチ(平均で12%)で大幅に改善されていることが分かりました。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Treating Brain-inspired Memories as Priors for Diffusion Model to Forecast Multivariate Time Series [16.315066774520524]
人間の記憶機構からインスピレーションを得て、時間的パターンをよりよく捉えます。
脳にインスパイアされた記憶はセマンティックメモリとエピソードメモリから構成される。
脳にインスパイアされたメモリ拡張拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-27T07:09:40Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering [36.00733800536469]
VideoQAは、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
人間は一連のエピソード記憶をアンカーとして使い、推論のための質問に関連する重要な瞬間を素早く見つけることで、簡単に対処できる。
この効果的な推論戦略を模倣するGlance-Focusモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:51:16Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Seeing Eye to AI: Comparing Human Gaze and Model Attention in Video Memorability [21.44002657362493]
我々は,ビデオの暗記性予測において,時間的注意をTASo(State-of-the-art)のパフォーマンスに合わせることなく特徴を解析できる,シンプルなCNN+Transformerアーキテクチャを採用する。
本研究は,ヒトが記憶課題を遂行する視線追跡研究を通じて,人間の定着に対するモデル注意度を比較した。
論文 参考訳(メタデータ) (2023-11-26T05:14:06Z) - Memory-and-Anticipation Transformer for Online Action Understanding [52.24561192781971]
本稿では,過去,現在,未来を含む時間構造全体をモデル化する,メモリ予測に基づく新しいパラダイムを提案する。
本稿では,メモリ・アンド・アンティフィケーション・トランスフォーマ(MAT)を提案する。
論文 参考訳(メタデータ) (2023-08-15T17:34:54Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。