論文の概要: Rescaling Egocentric Vision
- arxiv url: http://arxiv.org/abs/2006.13256v4
- Date: Fri, 17 Sep 2021 17:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:26:30.981017
- Title: Rescaling Egocentric Vision
- Title(参考訳): egocentric visionの再スケーリング
- Authors: Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Antonino Furnari,
Evangelos Kazakos, Jian Ma, Davide Moltisanti, Jonathan Munro, Toby Perrett,
Will Price, Michael Wray
- Abstract要約: 本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
- 参考スコア(独自算出の注目度): 48.57283024015145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces the pipeline to extend the largest dataset in
egocentric vision, EPIC-KITCHENS. The effort culminates in EPIC-KITCHENS-100, a
collection of 100 hours, 20M frames, 90K actions in 700 variable-length videos,
capturing long-term unscripted activities in 45 environments, using
head-mounted cameras. Compared to its previous version, EPIC-KITCHENS-100 has
been annotated using a novel pipeline that allows denser (54% more actions per
minute) and more complete annotations of fine-grained actions (+128% more
action segments). This collection enables new challenges such as action
detection and evaluating the "test of time" - i.e. whether models trained on
data collected in 2018 can generalise to new footage collected two years later.
The dataset is aligned with 6 challenges: action recognition (full and weak
supervision), action detection, action anticipation, cross-modal retrieval
(from captions), as well as unsupervised domain adaptation for action
recognition. For each challenge, we define the task, provide baselines and
evaluation metrics
- Abstract(参考訳): 本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20MフレームのEPIC-KITCHENS-100で終了し、700の可変長ビデオで90Kアクションを処理し、ヘッドマウントカメラを使用して45の環境で長期の無記述活動をキャプチャする。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
このコレクションは、アクション検出や"時間テスト"の評価といった新たな課題、すなわち、2018年に収集されたデータに基づいてトレーニングされたモデルが、2年後に収集された新しい映像に一般化できるかどうか、といった課題を可能にします。
データセットは、アクション認識(フルかつ弱い監督)、アクション検出、アクション予測、(キャプションからの)クロスモーダル検索、およびアクション認識のための教師なしドメイン適応の6つの課題と一致している。
課題ごとにタスクを定義し、ベースラインと評価メトリクスを提供します。
関連論文リスト
- Android in the Zoo: Chain-of-Action-Thought for GUI Agents [39.713207012540884]
Chain-of-Action-Thought(CoATと呼ばれる)は、標準的なコンテキストモデリングよりも目標の進捗を改善する。
AitZ(Android-In-The-Zoo)は18,643のスクリーンアクションペアとチェーン・オブ・アクション・アノテーションを含むベンチマークである。
実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T07:09:35Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z) - NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022 [13.603712913129506]
EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。
我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-06-22T06:34:58Z) - Assembly101: A Large-Scale Multi-View Video Dataset for Understanding
Procedural Activities [29.05606394634704]
Assembly101は、4321人の人々が101台の「テイク・アパルト」のおもちゃを組み立てて分解する、新しいプロシージャ活動データセットである。
参加者は固定命令なしで作業し、シーケンスはアクション順序、ミス、修正のリッチで自然なバリエーションを特徴とする。
シーケンスには100K以上の粗い部分と1Mのきめ細かいアクションセグメントと18Mの3Dハンドポーズがアノテートされている。
論文 参考訳(メタデータ) (2022-03-28T12:59:50Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - A Stronger Baseline for Ego-Centric Action Detection [38.934802199184354]
本稿では,CVPR2021ワークショップ主催のEPIC-KITCHENS-100コンペティションで使用した,エゴセントリックなビデオアクション検出手法について分析する。
我々の課題は、長い未トリミングビデオでアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウインドウ戦略を採用する。
論文 参考訳(メタデータ) (2021-06-13T08:11:31Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。