Fugu-MT 論文翻訳(概要): t-EVA: Time-Efficient t-SNE Video Annotation

論文の概要: t-EVA: Time-Efficient t-SNE Video Annotation

arxiv url: http://arxiv.org/abs/2011.13202v1
Date: Thu, 26 Nov 2020 09:56:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 08:37:21.304057
Title: t-EVA: Time-Efficient t-SNE Video Annotation
Title（参考訳）: t-EVA: 時間効率の良いt-SNEビデオアノテーション
Authors: Soroosh Poorgholi, Osman Semih Kayhan and Jan C. van Gemert
Abstract要約: t-EVAは、ビデオ分類におけるテスト精度を維持しながら、他のビデオアノテーションツールより優れている。 t-EVAはビデオ分類におけるテスト精度を維持しつつ、他のビデオアノテーションツールよりも優れていることを示す。
参考スコア（独自算出の注目度）: 16.02592287695421
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video understanding has received more attention in the past few years due to the availability of several large-scale video datasets. However, annotating large-scale video datasets are cost-intensive. In this work, we propose a time-efficient video annotation method using spatio-temporal feature similarity and t-SNE dimensionality reduction to speed up the annotation process massively. Placing the same actions from different videos near each other in the two-dimensional space based on feature similarity helps the annotator to group-label video clips. We evaluate our method on two subsets of the ActivityNet (v1.3) and a subset of the Sports-1M dataset. We show that t-EVA can outperform other video annotation tools while maintaining test accuracy on video classification.
Abstract（参考訳）: ビデオ理解は、いくつかの大規模なビデオデータセットが利用可能であることから、ここ数年で注目されている。しかし、大規模ビデオデータセットの注釈付けはコストがかかる。本研究では,時空間的特徴類似度とt-SNE次元の低減を用いた時間効率なビデオアノテーション手法を提案する。異なるビデオから同じアクションを2次元の空間に配置することは、アノテータがグループラベルのビデオクリップを作成するのに役立ちます。本研究では,ActivityNetの2つのサブセット(v1.3)とSports-1Mデータセットのサブセットについて評価する。 t-EVAはビデオ分類におけるテスト精度を維持しつつ、他のビデオアノテーションツールよりも優れていることを示す。

関連論文リスト

HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文参考訳（メタデータ） (2024-09-16T18:15:38Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
Point-VOS: Pointing Up Video Object Segmentation [16.359861197595986]
現在の最先端のビデオオブジェクト(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。本稿では,その労力を大幅に削減する疎時間的ポイントワイドアノテーションスキームを備えた新しいPoint-VOSタスクを提案する。ビデオナラティブグラウンドディング(VNG)タスクで評価することで、視覚と言語を接続するモデルを改善するために、我々のデータが利用できることを示す。
論文参考訳（メタデータ） (2024-02-08T18:52:23Z)
Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文参考訳（メタデータ） (2023-11-08T00:56:31Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-06T16:42:22Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)
Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。 2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文参考訳（メタデータ） (2020-08-13T15:51:42Z)
Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文参考訳（メタデータ） (2020-08-06T09:08:14Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。