論文の概要: Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition
- arxiv url: http://arxiv.org/abs/2401.04354v1
- Date: Tue, 9 Jan 2024 04:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 17:05:53.314371
- Title: Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition
- Title(参考訳): シーン認識のための知識強化マルチパースペクティブ映像表現学習
- Authors: Xuzheng Yu, Chen Jiang, Wei Zhang, Tian Gan, Linlin Chao, Jianan Zhao,
Yuan Cheng, Qingpei Guo, Wei Chu
- Abstract要約: 我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.800842679024164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosive growth of video data in real-world applications, a
comprehensive representation of videos becomes increasingly important. In this
paper, we address the problem of video scene recognition, whose goal is to
learn a high-level video representation to classify scenes in videos. Due to
the diversity and complexity of video contents in realistic scenarios, this
task remains a challenge. Most existing works identify scenes for videos only
from visual or textual information in a temporal perspective, ignoring the
valuable information hidden in single frames, while several earlier studies
only recognize scenes for separate images in a non-temporal perspective. We
argue that these two perspectives are both meaningful for this task and
complementary to each other, meanwhile, externally introduced knowledge can
also promote the comprehension of videos. We propose a novel two-stream
framework to model video representations from multiple perspectives, i.e.
temporal and non-temporal perspectives, and integrate the two perspectives in
an end-to-end manner by self-distillation. Besides, we design a
knowledge-enhanced feature fusion and label prediction method that contributes
to naturally introducing knowledge into the task of video scene recognition.
Experiments conducted on a real-world dataset demonstrate the effectiveness of
our proposed method.
- Abstract(参考訳): 現実世界のアプリケーションにおけるビデオデータの爆発的増加に伴い、ビデオの包括的表現がますます重要になる。
本稿では,映像中のシーンを分類するハイレベルな映像表現を学習することを目的として,映像シーン認識の課題に対処する。
現実的シナリオにおけるビデオコンテンツの多様性と複雑さのため、この課題は依然として課題である。
既存の作品の多くは、時間的な視点で視覚的またはテキスト的な情報のみからビデオのシーンを識別し、単一のフレームに隠された貴重な情報を無視する。
これら2つの視点はこの課題に意味があり、相互補完的でありながら、外部から導入された知識はビデオの理解を促進することができる。
本研究では,複数の視点,すなわち時間的および非時間的視点から映像表現をモデル化し,その2つの視点を自己蒸留によりエンドツーエンドに統合する,新たな2ストリームフレームワークを提案する。
さらに,映像シーン認識のタスクに自然に知識を導入するのに寄与する,知識を付加した特徴融合とラベル予測手法を設計する。
実世界のデータセットを用いて実験を行い,提案手法の有効性を示した。
関連論文リスト
- Deep video representation learning: a survey [4.9589745881431435]
近年,視覚データに対する逐次的特徴学習法が提案され,その特徴と欠点を比較して一般的なビデオ解析を行った。
ビデオ解析と理解を含むコンピュータビジョンタスクにおいて、ビデオの効果的な機能を構築することが根本的な問題である。
論文 参考訳(メタデータ) (2024-05-10T16:20:11Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Contextual Explainable Video Representation:\\Human Perception-based
Understanding [10.172332586182792]
人間の知覚過程をアクター、オブジェクト、環境のモデリングに組み込むアプローチについて議論する。
ビデオ理解における人間の知覚に基づく文脈表現の有効性を示すために,ビデオ文のキャプションと時間的行動検出を選択する。
論文 参考訳(メタデータ) (2022-12-12T19:29:07Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Space-time Neural Irradiance Fields for Free-Viewpoint Video [54.436478702701244]
本稿では,1つのビデオから動的シーンのニューラル照度場を学習する手法を提案する。
私たちの学習した表現は、入力ビデオのフリービューレンダリングを可能にします。
論文 参考訳(メタデータ) (2020-11-25T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。