Fugu-MT 論文翻訳(概要): Deep video representation learning: a survey

論文の概要: Deep video representation learning: a survey

arxiv url: http://arxiv.org/abs/2405.06574v1
Date: Fri, 10 May 2024 16:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-13 15:18:23.363586
Title: Deep video representation learning: a survey
Title（参考訳）: ディープビデオ表現学習 : サーベイ
Authors: Elham Ravanbakhsh, Yongqing Liang, J. Ramanujam, Xin Li,
Abstract要約: 近年,視覚データに対する逐次的特徴学習法が提案され,その特徴と欠点を比較して一般的なビデオ解析を行った。ビデオ解析と理解を含むコンピュータビジョンタスクにおいて、ビデオの効果的な機能を構築することが根本的な問題である。
参考スコア（独自算出の注目度）: 4.9589745881431435
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper provides a review on representation learning for videos. We classify recent spatiotemporal feature learning methods for sequential visual data and compare their pros and cons for general video analysis. Building effective features for videos is a fundamental problem in computer vision tasks involving video analysis and understanding. Existing features can be generally categorized into spatial and temporal features. Their effectiveness under variations of illumination, occlusion, view and background are discussed. Finally, we discuss the remaining challenges in existing deep video representation learning studies.
Abstract（参考訳）: 本稿では,ビデオの表現学習についてレビューする。近年の時空間的特徴学習手法を逐次的視覚データに分類し,その長所と短所を比較して一般的な映像解析を行う。ビデオ解析と理解を含むコンピュータビジョンタスクにおいて、ビデオの効果的な機能を構築することが根本的な問題である。既存の特徴は一般に空間的特徴と時間的特徴に分けられる。照明・閉塞・視界・背景のバリエーションによる効果について論じる。最後に,既存の深層映像表現学習研究における課題について考察する。

関連論文リスト

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey [86.96983249116614]
Image-Language Foundation Models (ILFM) は画像テキスト理解・生成タスクにおいて顕著な成功を収めている。この調査は、この新興分野に関する最初の総合的なレビューを提供する。
論文参考訳（メタデータ） (2025-10-12T15:56:02Z)
Visual Content Detection in Educational Videos with Transfer Learning and Dataset Enrichment [0.0]
本稿では,講義映像フレーム内の視覚的要素を検出するための伝達学習手法について報告する。 YOLOは講義ビデオオブジェクト検出に最適化されており、複数のベンチマークデータセットをトレーニングし、半教師付きオートラベリング戦略を展開している。
論文参考訳（メタデータ） (2025-06-27T04:43:05Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-09T04:37:10Z)
Contextual Explainable Video Representation:\\Human Perception-based Understanding [10.172332586182792]
人間の知覚過程をアクター、オブジェクト、環境のモデリングに組み込むアプローチについて議論する。ビデオ理解における人間の知覚に基づく文脈表現の有効性を示すために,ビデオ文のキャプションと時間的行動検出を選択する。
論文参考訳（メタデータ） (2022-12-12T19:29:07Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文参考訳（メタデータ） (2022-06-18T00:26:52Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Highlight Timestamp Detection Model for Comedy Videos via Multimodal Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文参考訳（メタデータ） (2021-05-28T08:39:19Z)
Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文参考訳（メタデータ） (2021-02-11T02:24:00Z)
Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文参考訳（メタデータ） (2021-01-15T11:41:29Z)
Classification of Important Segments in Educational Videos using Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文参考訳（メタデータ） (2020-10-26T14:40:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。