Fugu-MT 論文翻訳(概要): SEAL: A Large-scale Video Dataset of Multi-grained Spatio-temporally Action Localization

論文の概要: SEAL: A Large-scale Video Dataset of Multi-grained Spatio-temporally Action Localization

arxiv url: http://arxiv.org/abs/2204.02688v1
Date: Wed, 6 Apr 2022 09:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 14:06:03.547432
Title: SEAL: A Large-scale Video Dataset of Multi-grained Spatio-temporally Action Localization
Title（参考訳）: SEAL: 時空間局所化のための大規模ビデオデータセット
Authors: Shimin Chen, Wei Li, Chen Chen, Jianyang Gu, Jiaming Chu, Xunqiang Tao, Yandong Guo
Abstract要約: 本稿では,SEALと呼ばれる新しい大規模ビデオデータセットを提案する。 SEALは2種類のアノテーション、SEALチューブとSEALクリップで構成されている。 SEAL Clipsは2秒のクリップで空間内の原子の作用をローカライズし、1人あたりの複数のラベルを持つ510.4kのアクションラベルを生成する。
参考スコア（独自算出の注目度）: 12.50298807752728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In spite of many dataset efforts for human action recognition, current computer vision algorithms are still limited to coarse-grained spatial and temporal annotations among human daily life. In this paper, we introduce a novel large-scale video dataset dubbed SEAL for multi-grained Spatio-tEmporal Action Localization. SEAL consists of two kinds of annotations, SEAL Tubes and SEAL Clips. We observe that atomic actions can be combined into many complex activities. SEAL Tubes provide both atomic action and complex activity annotations in tubelet level, producing 49.6k atomic actions spanning 172 action categories and 17.7k complex activities spanning 200 activity categories. SEAL Clips localizes atomic actions in space during two-second clips, producing 510.4k action labels with multiple labels per person. Extensive experimental results show that SEAL significantly helps to advance video understanding.
Abstract（参考訳）: 人間の行動認識のための多くのデータセット努力にもかかわらず、現在のコンピュータビジョンアルゴリズムは、人間の日常生活における粗い空間的および時間的アノテーションに制限されている。本稿では,SEALと呼ばれる大規模ビデオデータセットを多粒度スポース・tエンポラル・アクション・ローカライゼーションのために導入する。 SEALは2種類のアノテーション、SEALチューブとSEALクリップで構成されている。我々は、原子の作用が多くの複雑な活動に結合できることを観察する。 SEALチューブは、チューブレットレベルでのアトミックアクションと複雑なアクティビティアノテーションの両方を提供し、172のアクションカテゴリにまたがる49.6kの原子アクションと200のアクティビティカテゴリにまたがる17.7kの複雑なアクティビティを生成する。 SEAL Clipsは2秒のクリップで空間内の原子の作用をローカライズし、1人あたりの複数のラベルを持つ510.4kのアクションラベルを生成する。広汎な実験結果から,SEALは映像理解の促進に有効であることが示唆された。

関連論文リスト

ATARS: An Aerial Traffic Atomic Activity Recognition and Temporal Segmentation Dataset [11.07193206318681]
本稿では,Aerial Traffic Atomic Activity Recognition and (ATARS) データセットについて紹介する。各フレームにアトミックなアクティビティラベルを提供し、トラフィックアクティビティの間隔を正確に記録します。本稿では,原子活動の正確な時間的位置推定が可能な新しいタスクであるマルチラベルトリミング原子活動認識法を提案する。
論文参考訳（メタデータ） (2025-03-24T11:06:04Z)
Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。 Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文参考訳（メタデータ） (2024-10-31T14:16:56Z)
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文参考訳（メタデータ） (2024-06-14T10:23:53Z)
Temporal Grounding of Activities using Multimodal Large Language Models [0.0]
画像ベースとテキストベースの大規模言語モデル(LLM)を時間的活動局所化のための2段階的アプローチで組み合わせることの有効性を評価する。提案手法は既存のビデオベースLLMよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-30T09:11:02Z)
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文参考訳（メタデータ） (2022-06-23T06:30:08Z)
Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文参考訳（メタデータ） (2022-05-27T02:21:04Z)
Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。階層的特徴と相互作用するためにスパース提案を導入する。実験により,高いtIoU閾値下での本手法の有効性が示された。
論文参考訳（メタデータ） (2021-09-18T06:15:19Z)
Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-15T09:50:42Z)
TinyAction Challenge: Recognizing Real-world Low-resolution Activities in Videos [45.025522742972505]
本稿では,CVPR 2021のActivityNetワークショップで実施されたTinyActionチャレンジを要約する。この課題は、ビデオに存在する現実の低解像度のアクティビティを認識することに焦点を当てている。
論文参考訳（メタデータ） (2021-07-24T00:41:19Z)
JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action, Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。 JRDB-Actには280万以上のアクションラベルがある。 JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文参考訳（メタデータ） (2021-06-16T14:43:46Z)
FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2021-05-24T06:06:32Z)
Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文参考訳（メタデータ） (2020-11-17T03:59:05Z)
Complementary Boundary Generator with Scale-Invariant Relation Modeling for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-20T04:35:40Z)
Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization [40.517438760096056]
近年,ビデオ内の時間的局所化活動が広く研究されている。近年の進歩にもかかわらず、時間的活動の局所化を弱く制御する既存の手法は、ある活動が起こっていないことを認識するのに苦労している。
論文参考訳（メタデータ） (2020-07-13T19:33:24Z)
Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文参考訳（メタデータ） (2020-04-28T00:15:26Z)
Gabriella: An Online System for Real-Time Activity Detection in Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文参考訳（メタデータ） (2020-04-23T22:20:10Z)
Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文参考訳（メタデータ） (2020-04-01T00:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。