Fugu-MT 論文翻訳(概要): Classifying Video based on Automatic Content Detection Overview

論文の概要: Classifying Video based on Automatic Content Detection Overview

arxiv url: http://arxiv.org/abs/2103.15323v1
Date: Mon, 29 Mar 2021 04:31:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 14:58:17.918624
Title: Classifying Video based on Automatic Content Detection Overview
Title（参考訳）: 自動コンテンツ検出概要に基づく映像の分類
Authors: Yilin Wang and Jiayi Ye
Abstract要約: マルチラベルビデオ分類のための最先端手法をいくつか要約した。まず、現在広く使われているアーキテクチャを実験的に研究し、次にフレームのシーケンシャルデータを扱う方法を開発することを目的とする。
参考スコア（独自算出の注目度）: 12.556159953684023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video classification and analysis is always a popular and challenging field in computer vision. It is more than just simple image classification due to the correlation with respect to the semantic contents of subsequent frames brings difficulties for video analysis. In this literature review, we summarized some state-of-the-art methods for multi-label video classification. Our goal is first to experimentally research the current widely used architectures, and then to develop a method to deal with the sequential data of frames and perform multi-label classification based on automatic content detection of video.
Abstract（参考訳）: ビデオの分類と分析は常にコンピュータビジョンにおいて人気があり挑戦的な分野である。これは単なる単純な画像分類以上のもので、後続のフレームの意味的内容との相関がビデオ解析に困難をもたらす。本稿では,マルチレーベルビデオ分類のための最先端手法について概説する。まず,現在広く使われているアーキテクチャを実験的に研究し,フレームのシーケンシャルデータを扱う手法を開発し,ビデオの自動コンテンツ検出に基づくマルチラベル分類を行う。

関連論文リスト

Queries Are Not Alone: Clustering Text Embeddings for Video Search [10.695503567368732]
本稿では,テキストクエリをクラスタリングしてより広いセマンティックスコープをキャプチャすることで,ビデオ検索を強化する新しいフレームワークであるVideo-Text Cluster(VTC)を紹介する。本稿では,関連するクエリをグループ化するユニークなクラスタリング機構を提案し,各クエリの複数の解釈とニュアンスについて検討する。また、ビデオコンテンツに基づいてクラスタを調整するVTC-Attention(VTC-Atttention)を導入し、検索プロセスが最も関連性の高いテキスト機能を強調することを保証する。
論文参考訳（メタデータ） (2025-10-09T02:56:18Z)
Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文参考訳（メタデータ） (2025-01-11T08:04:39Z)
Multimodal Contextualized Support for Enhancing Video Retrieval System [0.0]
本稿では,マルチモーダルデータを抽出し,ビデオ内に複数のフレームから情報を組み込む,新たな検索パイプラインを統合するシステムを提案する。パイプラインは、単一のイメージ内のオブジェクト検出のみに焦点を当てるのではなく、ビデオクリップから推論できるものに焦点を当てて、潜在意味をキャプチャする。
論文参考訳（メタデータ） (2024-12-10T15:20:23Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文参考訳（メタデータ） (2023-07-10T15:47:13Z)
Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文参考訳（メタデータ） (2023-06-21T15:09:37Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文参考訳（メタデータ） (2022-01-07T15:21:46Z)
Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文参考訳（メタデータ） (2021-08-26T13:06:47Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Highlight Timestamp Detection Model for Comedy Videos via Multimodal Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文参考訳（メタデータ） (2021-05-28T08:39:19Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)
Generalized Few-Shot Video Classification with Video Retrieval and Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。さらなる改善をもたらす2つの新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-07-09T13:05:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。