論文の概要: Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos
- arxiv url: http://arxiv.org/abs/2402.11057v5
- Date: Wed, 13 Aug 2025 16:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:41.86635
- Title: Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos
- Title(参考訳): ストラグリングか? アセンブリビデオにおけるストラグ決定のためのデータセットとベースライン
- Authors: Shijia Feng, Michael Wray, Brian Sullivan, Youngkyoon Jang, Casimir Ludwig, Iain Gilchrist, Walterio Mayol-Cuevas,
- Abstract要約: ストラグル検出は、明確なステップやアクティビティの知識なしに特定できる、明確かつ重要なタスクである。
本稿では,エキスパートとクラウドソースアノテータの両方がラベル付けした,現実世界の3つの問題解決活動による最初の闘争データセットを紹介する。
このデータセットは73人の参加者による5.1時間のビデオを含む。
- 参考スコア(独自算出の注目度): 4.631245639292796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining when people are struggling allows for a finer-grained understanding of actions that complements conventional action classification and error detection. Struggle detection, as defined in this paper, is a distinct and important task that can be identified without explicit step or activity knowledge. We introduce the first struggle dataset with three real-world problem-solving activities that are labelled by both expert and crowd-source annotators. Video segments were scored w.r.t. their level of struggle using a forced choice 4-point scale. This dataset contains 5.1 hours of video from 73 participants. We conducted a series of experiments to identify the most suitable modelling approaches for struggle determination. Additionally, we compared various deep learning models, establishing baseline results for struggle classification, struggle regression, and struggle label distribution learning. Our results indicate that struggle detection in video can achieve up to $88.24\%$ accuracy in binary classification, while detecting the level of struggle in a four-way classification setting performs lower, with an overall accuracy of $52.45\%$. Our work is motivated toward a more comprehensive understanding of action in video and potentially the improvement of assistive systems that analyse struggle and can better support users during manual activities.
- Abstract(参考訳): 人々が苦労しているときの決定は、従来のアクション分類とエラー検出を補完するアクションのよりきめ細かい理解を可能にする。
本論文で定義されているストルーグル検出は,明示的なステップや活動知識を伴わずに識別可能な,明確かつ重要なタスクである。
本稿では,エキスパートとクラウドソースアノテータの両方がラベル付けした,現実世界の3つの問題解決活動による最初の闘争データセットを紹介する。
ビデオセグメントは、強制的に選択した4ポイントのスケールを使用して、彼らの闘争レベルをr.t.で測定した。
このデータセットは73人の参加者による5.1時間のビデオを含む。
我々は、闘争決定に最も適したモデリングアプローチを特定するために、一連の実験を行った。
さらに、様々なディープラーニングモデルを比較し、闘争分類、闘争回帰、闘争ラベル分布学習の基準となる結果を確立した。
その結果,ビデオ中の闘争検出は2進分類において最大8.24 %の精度で達成でき,四進分類における闘争のレベルは52.45 %の精度で低下することがわかった。
我々の研究は、ビデオにおけるアクションのより包括的な理解と、苦労を分析し、手動の活動中にユーザーをより良いサポートできる補助システムの改善に動機づけられている。
関連論文リスト
- VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文 参考訳(メタデータ) (2025-08-05T03:33:24Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - 2by2: Weakly-Supervised Learning for Global Action Segmentation [4.880243880711163]
本稿では,グローバルアクションセグメンテーションの課題に対して,シンプルかつ効果的なアプローチを提案する。
我々は,グローバルな行動セグメンテーションに適した行動表現を弱教師付きで学習するために,活動ラベルを利用することを提案する。
バックボーンアーキテクチャでは、スパーストランスフォーマーをベースとしたSiameseネットワークを使用して、入力ビデオペアとして使用し、それらが同一のアクティビティに属しているかどうかを判断する。
論文 参考訳(メタデータ) (2024-12-17T11:49:36Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Representation learning from videos in-the-wild: An object-centric
approach [40.46013713992305]
未修正ビデオから画像表現を学習する手法を提案する。
我々は、市販の物体検出器からの監視的損失と、各ビデオに存在するビデオショットフレームオブジェクト階層から自然に生じる自己監督的損失とを組み合わせる。
論文 参考訳(メタデータ) (2020-10-06T15:17:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。