論文の概要: Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos
- arxiv url: http://arxiv.org/abs/2204.13548v1
- Date: Thu, 28 Apr 2022 14:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 18:15:39.043956
- Title: Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos
- Title(参考訳): Tragedy Plus Time: 弱いラベル付きビデオから意図しない人間の活動をキャプチャする
- Authors: Arnav Chakravarthy, Zhiyuan Fang, Yezhou Yang
- Abstract要約: W-Oopsは2100の意図しない人間のアクションビデオで構成され、44のゴール指向と30の意図しないビデオレベルのアクティビティラベルが人間のアノテーションを通じて収集されている。
本稿では,映像中の意図しない時間領域だけでなく,目標指向の局所化のための弱教師付きアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.1632730473261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In videos that contain actions performed unintentionally, agents do not
achieve their desired goals. In such videos, it is challenging for computer
vision systems to understand high-level concepts such as goal-directed
behavior, an ability present in humans from a very early age. Inculcating this
ability in artificially intelligent agents would make them better social
learners by allowing them to evaluate human action under a teleological lens.
To validate the ability of deep learning models to perform this task, we curate
the W-Oops dataset, built upon the Oops dataset [15]. W-Oops consists of 2,100
unintentional human action videos, with 44 goal-directed and 30 unintentional
video-level activity labels collected through human annotations. Due to the
expensive segment annotation procedure, we propose a weakly supervised
algorithm for localizing the goal-directed as well as unintentional temporal
regions in the video leveraging solely video-level labels. In particular, we
employ an attention mechanism-based strategy that predicts the temporal regions
which contribute the most to a classification task. Meanwhile, our designed
overlap regularization allows the model to focus on distinct portions of the
video for inferring the goal-directed and unintentional activity while
guaranteeing their temporal ordering. Extensive quantitative experiments verify
the validity of our localization method. We further conduct a video captioning
experiment which demonstrates that the proposed localization module does indeed
assist teleological action understanding.
- Abstract(参考訳): 意図しない行動を含むビデオでは、エージェントは目的を達成することができない。
このようなビデオでは、コンピュータビジョンシステムがゴール指向行動や、非常に初期の人間の能力といった高レベルな概念を理解することは困難である。
人工的に知性のあるエージェントにこの能力を与えると、テレロジカルレンズで人間の行動を評価することによって、より優れた社会学習者が得られる。
このタスクを実行するためのディープラーニングモデルの有効性を検証するために,Oopsデータセット上に構築されたW-Oopsデータセットをキュレートする[15]。
w-oopsは2100の意図しない人間のアクションビデオで構成され、44の目標指向と30の意図しないビデオレベルのアクティビティラベルを人間のアノテーションで収集する。
高価なセグメントアノテーション手法により,ビデオレベルのラベルのみを利用するビデオにおいて,ゴール指向と意図しない時間領域をローカライズする弱い教師付きアルゴリズムを提案する。
特に,分類タスクに最も寄与する時間領域を予測する注意機構に基づく戦略を採用する。
一方,設計した重複正規化により,時間的順序を保証しながら,ゴール指向と意図しない動作を推定するために,ビデオの異なる部分に集中することができる。
広範囲な定量的実験により,本手法の有効性が検証された。
さらに,映像キャプション実験を行い,提案するローカライゼーションモジュールが実際にテレロジー的行動理解を支援することを実証する。
関連論文リスト
- Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention [10.149523817328921]
本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。
本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。
提案手法は最先端技術より優れ、18種類の意図認識の精度が7%向上した。
論文 参考訳(メタデータ) (2024-04-10T21:03:23Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Leveraging Self-Supervised Training for Unintentional Action Recognition [82.19777933440143]
我々は、アクションが意図的なものから意図しないものへと移行するビデオのポイントを特定したい。
本研究では,動き速度,動き方向,意図しない動作を認識するために,固有バイアスを利用する多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T21:36:36Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Learning Goals from Failure [30.071336708348472]
ビデオにおける観察可能な人間の行動の背景にある目標を予測する枠組みを導入する。
発達心理学のエビデンスに触発され、意図しない行動のビデオを利用して、直接の監督なしにゴールの映像表現を学習する。
論文 参考訳(メタデータ) (2020-06-28T17:16:49Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。