論文の概要: Video SemNet: Memory-Augmented Video Semantic Network
- arxiv url: http://arxiv.org/abs/2011.10909v1
- Date: Sun, 22 Nov 2020 01:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 08:50:09.229518
- Title: Video SemNet: Memory-Augmented Video Semantic Network
- Title(参考訳): video semnet: メモリ提示型ビデオセマンティクスネットワーク
- Authors: Prashanth Vijayaraghavan, Deb Roy
- Abstract要約: 本稿では,低レベルデータ表現と視覚媒体の意味的側面のギャップを埋めることで,映画の物語要素を捉える機械学習手法を提案する。
本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)というメモリ拡張ビデオセマンティックネットワークを提案する。
重み付きF-1スコアは0.72, IMDB評価は0.63である。
- 参考スコア(独自算出の注目度): 14.64546899992196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stories are a very compelling medium to convey ideas, experiences, social and
cultural values. Narrative is a specific manifestation of the story that turns
it into knowledge for the audience. In this paper, we propose a machine
learning approach to capture the narrative elements in movies by bridging the
gap between the low-level data representations and semantic aspects of the
visual medium. We present a Memory-Augmented Video Semantic Network, called
Video SemNet, to encode the semantic descriptors and learn an embedding for the
video. The model employs two main components: (i) a neural semantic learner
that learns latent embeddings of semantic descriptors and (ii) a memory module
that retains and memorizes specific semantic patterns from the video. We
evaluate the video representations obtained from variants of our model on two
tasks: (a) genre prediction and (b) IMDB Rating prediction. We demonstrate that
our model is able to predict genres and IMDB ratings with a weighted F-1 score
of 0.72 and 0.63 respectively. The results are indicative of the
representational power of our model and the ability of such representations to
measure audience engagement.
- Abstract(参考訳): ストーリーはアイデア、経験、社会的、文化的価値を伝える非常に魅力的な媒体です。
物語は物語の具体的な表現であり、それを聴衆の知識に変える。
本稿では,視覚メディアの低レベルのデータ表現と意味的側面のギャップを埋めることにより,映画におけるナラティブ要素を捉えるための機械学習手法を提案する。
本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)を提案する。
モデルは2つの主要なコンポーネントを使用します。
(i)意味記述子の潜在埋め込みを学習する神経意味学習者、及び
(ii)ビデオから特定のセマンティックパターンを保持し記憶するメモリモジュール。
モデルの変種から得られた映像表現を2つのタスクで評価する。
(a)ジャンルの予測及び
(b)IMDBレーティング予測。
本モデルは,それぞれ0.72と0.63の重み付きf-1スコアでジャンルやimdbの評価を予測できることを実証する。
その結果,モデルの表現力と,観客のエンゲージメントを測定するための表現能力が示唆された。
関連論文リスト
- Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - Enhancing Gait Video Analysis in Neurodegenerative Diseases by Knowledge Augmentation in Vision Language Model [10.742625681420279]
大規模な事前学習型視覚言語モデル(VLM)に基づいて,患者の歩行映像の視覚的,テキスト的,数値的表現を学習し,改善する。
結果から,本モデルはビデオベース分類タスクにおいて最先端の手法よりも優れるだけでなく,学習したクラス固有のテキスト特徴を自然言語記述に包括的にデコードすることがわかった。
論文 参考訳(メタデータ) (2024-03-20T17:03:38Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network
Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。
まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。
次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。