論文の概要: UnweaveNet: Unweaving Activity Stories
- arxiv url: http://arxiv.org/abs/2112.10194v1
- Date: Sun, 19 Dec 2021 17:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:33:17.207494
- Title: UnweaveNet: Unweaving Activity Stories
- Title(参考訳): UnweaveNet: アクティビティストーリーを解き放つ
- Authors: Will Price, Carl Vondrick, Dima Damen
- Abstract要約: 我々は、非織りと呼ばれるプロセスを通じて、非記述された日々のアクティビティのビデオをその構成要素のアクティビティスレッドに解析する。
そこで本研究では,スレッドバンクと呼ばれるアクティビティスレッドを明示的にキャプチャするビデオ表現と,目標変化を検出するニューラルコントローラを提案する。
我々は、エゴセントリックなデータセットEPIC-KITCHENSのシーケンスに基づいてUnweaveNetをトレーニングし、評価する。
- 参考スコア(独自算出の注目度): 41.09653650977395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our lives can be seen as a complex weaving of activities; we switch from one
activity to another, to maximise our achievements or in reaction to demands
placed upon us. Observing a video of unscripted daily activities, we parse the
video into its constituent activity threads through a process we call
unweaving. To accomplish this, we introduce a video representation explicitly
capturing activity threads called a thread bank, along with a neural controller
capable of detecting goal changes and resuming of past activities, together
forming UnweaveNet. We train and evaluate UnweaveNet on sequences from the
unscripted egocentric dataset EPIC-KITCHENS. We propose and showcase the
efficacy of pretraining UnweaveNet in a self-supervised manner.
- Abstract(参考訳): 私たちの人生は、ある活動から別の活動に切り替え、達成を最大化し、あるいは我々の要求に応えて、複雑な活動の織り物と見なすことができる。
毎日のアクティビティのビデオを観察すると、ビデオはアンウィービングと呼ばれるプロセスを通じてそのアクティビティのスレッドに解析される。
これを実現するために,スレッドバンクと呼ばれるアクティビティスレッドを明示的にキャプチャするビデオ表現と,目標変化の検出と過去のアクティビティの再開が可能なニューラルコントローラを導入して,unweavenetを形成する。
我々は、エゴセントリックなデータセットEPIC-KITCHENSのシーケンスに基づいてUnweaveNetをトレーニングし、評価する。
我々は, unweavenet の自己管理による事前学習の有効性を提示する。
関連論文リスト
- Query by Activity Video in the Wild [52.42177539947216]
現在のクェリ・バイ・アクティビティ・ビデオの文献では、埋め込みを学ぶ際に、すべてのアクティビティが十分なラベル付き例を持っているという仮定が一般的である。
本稿では,アクティビティ検索における不均衡なシナリオを明示的に扱う視覚意味埋め込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T10:26:36Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - AssembleNet++: Assembling Modality Representations via Attention
Connections [83.50084190050093]
i)セマンティックオブジェクト情報と生の外観と動きの特徴の相互作用を学習し、(ii)ネットワークの各畳み込みブロックにおける特徴の重要性をよりよく学習するために注意を配置する。
ピアアテンションと呼ばれる新しいネットワークコンポーネントを導入し、別のブロックや入力モダリティを使って動的にアテンションウェイトを学習する。
論文 参考訳(メタデータ) (2020-08-18T17:54:08Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。