論文の概要: AutoVideo: An Automated Video Action Recognition System
- arxiv url: http://arxiv.org/abs/2108.04212v1
- Date: Mon, 9 Aug 2021 17:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:39:06.024868
- Title: AutoVideo: An Automated Video Action Recognition System
- Title(参考訳): AutoVideo: 自動ビデオアクション認識システム
- Authors: Daochen Zha, Zaid Pervaiz Bhat, Yi-Wei Chen, Yicheng Wang, Sirui Ding,
AnmollKumar Jain, Mohammad Qazim Bhat, Kwei-Herng Lai, Jiaben Chen, Na Zou,
Xia Hu
- Abstract要約: AutoVideoは、自動ビデオアクション認識のためのPythonシステムである。
7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートする。
AutoMLのサーチと簡単に組み合わせることができる。
- 参考スコア(独自算出の注目度): 38.39389521973502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is a crucial task for video understanding. In this paper,
we present AutoVideo, a Python system for automated video action recognition.
It currently supports seven action recognition algorithms and various
pre-processing modules. Unlike the existing libraries that only provide model
zoos, AutoVideo is built with the standard pipeline language. The basic
building block is primitive, which wraps a pre-processing module or an
algorithm with some hyperparameters. AutoVideo is highly modular and
extendable. It can be easily combined with AutoML searchers. The pipeline
language is quite general so that we can easily enrich AutoVideo with
algorithms for various other video-related tasks in the future. AutoVideo is
released under MIT license at https://github.com/datamllab/autovideo
- Abstract(参考訳): 行動認識はビデオ理解にとって重要な課題である。
本稿では,自動ビデオ行動認識のためのPythonシステムであるAutoVideoを提案する。
現在、7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートしている。
モデル動物園のみを提供する既存のライブラリとは異なり、AutoVideoは標準パイプライン言語で構築されている。
基本的なビルディングブロックはプリミティブで、前処理モジュールやアルゴリズムをハイパーパラメータでラップする。
AutoVideoは高度にモジュール化され拡張可能である。
AutoML検索と簡単に組み合わせることができる。
パイプライン言語は非常に一般的なので,将来的にはさまざまなビデオ関連タスクのアルゴリズムでAutoVideoを簡単に拡張できるようになります。
autovideoはmitライセンスでhttps://github.com/datamllab/autovideoでリリース
関連論文リスト
- Step Differences in Instructional Video [34.551572600535565]
本論文では,HowTo100Mから一対の動画を含む視覚的インストラクション・チューニングデータを生成する手法を提案する。
次に、ビデオ条件付き言語モデルをトレーニングして、複数の生のビデオに共同で理由付けします。
本モデルでは,ビデオペアとランキングビデオの違いを識別し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-24T21:49:59Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - PyTorchVideo: A Deep Learning Library for Video Understanding [71.89124881732015]
PyTorchVideoは、ビデオ理解タスクのためのオープンソースのディープラーニングライブラリである。
マルチモーダルデータローディング、変換、モデルを含む、ビデオ理解ツールのフルスタックをカバーする。
ライブラリはPyTorchをベースにしており、任意のトレーニングフレームワークで使用することができる。
論文 参考訳(メタデータ) (2021-11-18T18:59:58Z) - VIL-100: A New Dataset and A Baseline Model for Video Instance Lane
Detection [43.11580440256568]
ビデオインスタンスレーン検出データセットを新たに収集し、合計1万フレームの100本のビデオを含む。
各ビデオのフレームはすべて、高品質なインスタンスレベルのレーンアノテーションに手動で注釈付けされる。
ビデオインスタンスレーン検出のための新しいベースラインモデルであるマルチレベルメモリ集約ネットワーク(MMA-Net)を提案する。
論文 参考訳(メタデータ) (2021-08-19T03:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。