論文の概要: Win-Fail Action Recognition
- arxiv url: http://arxiv.org/abs/2102.07355v1
- Date: Mon, 15 Feb 2021 06:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 09:57:00.693909
- Title: Win-Fail Action Recognition
- Title(参考訳): Win-Fail アクション認識
- Authors: Paritosh Parmar, Brendan Morris
- Abstract要約: さまざまな活動で成功と失敗の試みを区別するウィンフェイルアクション認識タスクを紹介します。
既存のアクション認識データセットとは異なり、クラス内の変動はタスクを難しくするが実行可能である。
先駆的行動認識ネットワークを用いたwin-failタスク/データセットの特徴と新しい映像検索タスクを体系的に解析する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video/action understanding systems have demonstrated impressive
performance on large recognition tasks. However, they might be limiting
themselves to learning to recognize spatiotemporal patterns, rather than
attempting to thoroughly understand the actions. To spur progress in the
direction of a truer, deeper understanding of videos, we introduce the task of
win-fail action recognition -- differentiating between successful and failed
attempts at various activities. We introduce a first of its kind paired
win-fail action understanding dataset with samples from the following domains:
"General Stunts," "Internet Wins-Fails," "Trick Shots," and "Party Games."
Unlike existing action recognition datasets, intra-class variation is high
making the task challenging, yet feasible. We systematically analyze the
characteristics of the win-fail task/dataset with prototypical action
recognition networks and a novel video retrieval task. While current action
recognition methods work well on our task/dataset, they still leave a large gap
to achieve high performance. We hope to motivate more work towards the true
understanding of actions/videos. Dataset will be available from
https://github.com/ParitoshParmar/Win-Fail-Action-Recognition.
- Abstract(参考訳): 現在のビデオ/アクション理解システムは、大きな認識タスクで印象的なパフォーマンスを発揮しています。
しかし、彼らは行動を完全に理解しようとするのではなく、時空間的パターンを認識するための学習に制限される可能性がある。
ビデオのより深い理解、真の方向への進歩を促進するために、さまざまな活動で成功した試みと失敗した試みを区別するウィンフェイルアクション認識のタスクを紹介します。
我々は,その種類のウィンフェイル行動理解データセットの1つとして,"General Stunts","Internet Wins-Fails","Trick Shots","Party Games"の3つの領域のサンプルを紹介する。
既存のアクション認識データセットとは異なり、クラス内の変動はタスクを難しくするが実行可能である。
先駆的行動認識ネットワークを用いたwin-failタスク/データセットの特徴と新しい映像検索タスクを体系的に解析する。
現在のアクション認識手法はタスク/データセットでうまく機能しますが、高いパフォーマンスを達成するには大きなギャップを残しています。
アクション/ビデオの真の理解に向けて、より多くの作業の動機づけを願っています。
Datasetはhttps://github.com/ParitoshParmar/Win-Fail-Action-Recognitionから入手できる。
関連論文リスト
- The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - ActAR: Actor-Driven Pose Embeddings for Video Action Recognition [12.043574473965318]
ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。
我々は,赤外スペクトルにおける効率的な人間の行動を認識することを同時に学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-19T05:12:24Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。