論文の概要: Rescaling Egocentric Vision
- arxiv url: http://arxiv.org/abs/2006.13256v4
- Date: Fri, 17 Sep 2021 17:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:26:30.981017
- Title: Rescaling Egocentric Vision
- Title(参考訳): egocentric visionの再スケーリング
- Authors: Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Antonino Furnari,
Evangelos Kazakos, Jian Ma, Davide Moltisanti, Jonathan Munro, Toby Perrett,
Will Price, Michael Wray
- Abstract要約: 本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
- 参考スコア(独自算出の注目度): 48.57283024015145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces the pipeline to extend the largest dataset in
egocentric vision, EPIC-KITCHENS. The effort culminates in EPIC-KITCHENS-100, a
collection of 100 hours, 20M frames, 90K actions in 700 variable-length videos,
capturing long-term unscripted activities in 45 environments, using
head-mounted cameras. Compared to its previous version, EPIC-KITCHENS-100 has
been annotated using a novel pipeline that allows denser (54% more actions per
minute) and more complete annotations of fine-grained actions (+128% more
action segments). This collection enables new challenges such as action
detection and evaluating the "test of time" - i.e. whether models trained on
data collected in 2018 can generalise to new footage collected two years later.
The dataset is aligned with 6 challenges: action recognition (full and weak
supervision), action detection, action anticipation, cross-modal retrieval
(from captions), as well as unsupervised domain adaptation for action
recognition. For each challenge, we define the task, provide baselines and
evaluation metrics
- Abstract(参考訳): 本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20MフレームのEPIC-KITCHENS-100で終了し、700の可変長ビデオで90Kアクションを処理し、ヘッドマウントカメラを使用して45の環境で長期の無記述活動をキャプチャする。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
このコレクションは、アクション検出や"時間テスト"の評価といった新たな課題、すなわち、2018年に収集されたデータに基づいてトレーニングされたモデルが、2年後に収集された新しい映像に一般化できるかどうか、といった課題を可能にします。
データセットは、アクション認識(フルかつ弱い監督)、アクション検出、アクション予測、(キャプションからの)クロスモーダル検索、およびアクション認識のための教師なしドメイン適応の6つの課題と一致している。
課題ごとにタスクを定義し、ベースラインと評価メトリクスを提供します。
関連論文リスト
- AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z) - NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022 [13.603712913129506]
EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。
我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-06-22T06:34:58Z) - Assembly101: A Large-Scale Multi-View Video Dataset for Understanding
Procedural Activities [29.05606394634704]
Assembly101は、4321人の人々が101台の「テイク・アパルト」のおもちゃを組み立てて分解する、新しいプロシージャ活動データセットである。
参加者は固定命令なしで作業し、シーケンスはアクション順序、ミス、修正のリッチで自然なバリエーションを特徴とする。
シーケンスには100K以上の粗い部分と1Mのきめ細かいアクションセグメントと18Mの3Dハンドポーズがアノテートされている。
論文 参考訳(メタデータ) (2022-03-28T12:59:50Z) - Woodscape Fisheye Semantic Segmentation for Autonomous Driving -- CVPR
2021 OmniCV Workshop Challenge [2.3469719108972504]
WoodScape fisheye semantic segmentation Challenge for autonomous drivingはCVPR 2021 Workshop on Omnidirectional Computer Visionの一部として開催された。
71のグローバルチームが参加し、合計で395の応募があった。
トップチームは、ResNet-50バックボーンを使用したベースラインのPSPNetよりも、平均IoUと精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-07-17T14:32:58Z) - A Stronger Baseline for Ego-Centric Action Detection [38.934802199184354]
本稿では,CVPR2021ワークショップ主催のEPIC-KITCHENS-100コンペティションで使用した,エゴセントリックなビデオアクション検出手法について分析する。
我々の課題は、長い未トリミングビデオでアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウインドウ戦略を採用する。
論文 参考訳(メタデータ) (2021-06-13T08:11:31Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。