論文の概要: Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation
- arxiv url: http://arxiv.org/abs/2003.09392v1
- Date: Fri, 20 Mar 2020 16:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:53:37.686763
- Title: Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation
- Title(参考訳): 総合的インストラクショナルビデオ分析:COINデータセットと性能評価
- Authors: Yansong Tang and Jiwen Lu and Jie Zhou
- Abstract要約: 包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
- 参考スコア(独自算出の注目度): 100.68317848808327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the substantial and explosively inscreased instructional videos on
the Internet, novices are able to acquire knowledge for completing various
tasks. Over the past decade, growing efforts have been devoted to investigating
the problem on instructional video analysis. However, the most existing
datasets in this area have limitations in diversity and scale, which makes them
far from many real-world applications where more diverse activities occur. To
address this, we present a large-scale dataset named as "COIN" for
COmprehensive INstructional video analysis. Organized with a hierarchical
structure, the COIN dataset contains 11,827 videos of 180 tasks in 12 domains
(e.g., vehicles, gadgets, etc.) related to our daily life. With a new developed
toolbox, all the videos are annotated efficiently with a series of step labels
and the corresponding temporal boundaries. In order to provide a benchmark for
instructional video analysis, we evaluate plenty of approaches on the COIN
dataset under five different settings. Furthermore, we exploit two important
characteristics (i.e., task-consistency and ordering-dependency) for localizing
important steps in instructional videos. Accordingly, we propose two simple yet
effective methods, which can be easily plugged into conventional proposal-based
action detection models. We believe the introduction of the COIN dataset will
promote the future in-depth research on instructional video analysis for the
community. Our dataset, annotation toolbox and source code are available at
http://coin-dataset.github.io.
- Abstract(参考訳): インターネット上の相当で爆発的なインストラクショナルビデオのおかげで、初心者は様々なタスクを完了するための知識を習得することができる。
過去10年間で、教育ビデオ分析の問題を調査するための努力が増えている。
しかし、この分野で最も既存のデータセットは、多様性とスケールに制限があり、より多様なアクティビティが発生する多くの現実世界のアプリケーションとは程遠い。
そこで本研究では,包括的インストラクショナルビデオ解析のための大規模データセット"COIN"を提案する。
階層構造で編成されたCOINデータセットには、日々の生活に関連する12のドメイン(車、ガジェットなど)で180のタスクの11,827の動画が含まれている。
新たに開発されたツールボックスでは、すべてのビデオに一連のステップラベルと対応するテンポラルバウンダリをアノテートする。
指導ビデオ分析のベンチマークを提供するため,5つの異なる条件下でCOINデータセットに対する多くのアプローチを評価する。
さらに,2つの重要な特徴(タスク一貫性と順序依存性)を利用して,指導ビデオの重要なステップをローカライズする。
そこで本研究では,従来の提案に基づく行動検出モデルに簡単に接続可能な,シンプルで効果的な2つの手法を提案する。
coin datasetの導入は、コミュニティのためのインストラクショナルビデオ分析に関する今後の深い研究を促進するだろうと考えています。
私たちのデータセット、アノテーションツールボックス、ソースコードはhttp://coin-dataset.github.io.com/で利用可能です。
関連論文リスト
- HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - A Large-Scale Analysis on Self-Supervised Video Representation Learning [15.205738030787673]
本研究では,1)データセットのサイズ,2)複雑性,3)データ分布,4)データノイズ,5)機能解析の5つの側面について検討する。
この研究から得られた興味深い洞察は、事前学習とターゲットデータセット、プレテキストタスク、モデルアーキテクチャの様々な特性にまたがる。
本稿では,限られたトレーニングデータを必要とするアプローチを提案し,従来の10倍の事前学習データを用いた最先端のアプローチより優れた手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T16:27:14Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - VLEngagement: A Dataset of Scientific Video Lectures for Evaluating
Population-based Engagement [23.078055803229912]
ビデオ講義は、現在のデジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。
科学ビデオ講義における学習者の関与を理解することを目的としたデータと研究は依然として重要なニーズである。
本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴からなる,新しいデータセットである。
論文 参考訳(メタデータ) (2020-11-02T14:20:19Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。