論文の概要: Are you Struggling? Dataset and Baselines for Struggle Determination in
Assembly Videos
- arxiv url: http://arxiv.org/abs/2402.11057v2
- Date: Wed, 28 Feb 2024 16:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:55:22.741837
- Title: Are you Struggling? Dataset and Baselines for Struggle Determination in
Assembly Videos
- Title(参考訳): 苦労してるの?
アセンブリビデオにおけるストラグル決定のためのデータセットとベースライン
- Authors: Shijia Feng, Michael Wray, Brian Sullivan, Youngkyoon Jang, Casimir
Ludwig, Iain Gilchrist, and Walterio Mayol-Cuevas
- Abstract要約: 本稿では,3つの組立アクティビティとそれに対応するパフォーマンスベースラインを備えた新しいデータセットを提案する。
ビデオセグメントは、アノテータによって知覚される闘争のレベルが、強制的な選択4ポイントスケールで評価された。
このデータセットは、73人の参加者から5.1時間の動画と725,100フレームを収録した最初の闘争アノテーションデータセットである。
- 参考スコア(独自算出の注目度): 4.631245639292796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining when people are struggling from video enables a finer-grained
understanding of actions and opens opportunities for building intelligent
support visual interfaces. In this paper, we present a new dataset with three
assembly activities and corresponding performance baselines for the
determination of struggle from video. Three real-world problem-solving
activities including assembling plumbing pipes (Pipes-Struggle), pitching
camping tents (Tent-Struggle) and solving the Tower of Hanoi puzzle
(Tower-Struggle) are introduced. Video segments were scored w.r.t. the level of
struggle as perceived by annotators using a forced choice 4-point scale. Each
video segment was annotated by a single expert annotator in addition to
crowd-sourced annotations. The dataset is the first struggle annotation dataset
and contains 5.1 hours of video and 725,100 frames from 73 participants in
total. We evaluate three decision-making tasks: struggle classification,
struggle level regression, and struggle label distribution learning. We provide
baseline results for each of the tasks utilising several mainstream deep neural
networks, along with an ablation study and visualisation of results. Our work
is motivated toward assistive systems that analyze struggle, support users
during manual activities and encourage learning, as well as other video
understanding competencies.
- Abstract(参考訳): 人々がビデオに苦しむときの決定は、アクションのよりきめ細かい理解を可能にし、インテリジェントなサポートビジュアルインターフェースを構築する機会を開く。
本稿では,3つのアセンブリアクティビティとそれに対応するパフォーマンスベースラインを備えた新しいデータセットを提案する。
配管管(パイプ・ストラグル)、投球テント(テント・ストラグル)、ハノイパズル塔(トウワー・ストラグル)の3つの現実的な問題解決活動を紹介する。
ビデオセグメントは、アノテータによって知覚される闘争のレベルが、強制的な選択4ポイントスケールで評価された。
各ビデオセグメントは、クラウドソースアノテーションに加えて、単一の専門家アノテーションによって注釈付けされた。
このデータセットは、73人の参加者から5.1時間の動画と725,100フレームを収録した最初の闘争アノテーションデータセットである。
本研究は,3つの意思決定課題 – 闘争分類,闘争レベル回帰,闘争ラベル分布学習 – を評価する。
我々は,いくつかの主流のディープニューラルネットワークを用いたタスクのベースライン結果と,アブレーション研究と結果の可視化を提供する。
我々の研究は、闘争を分析し、手動活動中のユーザーを支援し、学習を促進し、その他のビデオ理解能力を高める支援システムに動機づけられている。
関連論文リスト
- A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Representation learning from videos in-the-wild: An object-centric
approach [40.46013713992305]
未修正ビデオから画像表現を学習する手法を提案する。
我々は、市販の物体検出器からの監視的損失と、各ビデオに存在するビデオショットフレームオブジェクト階層から自然に生じる自己監督的損失とを組み合わせる。
論文 参考訳(メタデータ) (2020-10-06T15:17:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。