論文の概要: Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video
- arxiv url: http://arxiv.org/abs/2005.02190v2
- Date: Fri, 8 May 2020 13:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:13:25.963143
- Title: Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video
- Title(参考訳): ファーストパーソンビデオからのアクション予測のためのローリングロールLSTM
- Authors: Antonino Furnari and Giovanni Maria Farinella
- Abstract要約: ローリング・ロールングLSTMは、エゴセントリックなビデオからアクションを予測するための学習アーキテクチャである。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
- 参考スコア(独自算出の注目度): 27.391434284586985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of egocentric action anticipation, i.e.,
predicting what actions the camera wearer will perform in the near future and
which objects they will interact with. Specifically, we contribute
Rolling-Unrolling LSTM, a learning architecture to anticipate actions from
egocentric videos. The method is based on three components: 1) an architecture
comprised of two LSTMs to model the sub-tasks of summarizing the past and
inferring the future, 2) a Sequence Completion Pre-Training technique which
encourages the LSTMs to focus on the different sub-tasks, and 3) a Modality
ATTention (MATT) mechanism to efficiently fuse multi-modal predictions
performed by processing RGB frames, optical flow fields and object-based
features. The proposed approach is validated on EPIC-Kitchens, EGTEA Gaze+ and
ActivityNet. The experiments show that the proposed architecture is
state-of-the-art in the domain of egocentric videos, achieving top performances
in the 2019 EPIC-Kitchens egocentric action anticipation challenge. The
approach also achieves competitive performance on ActivityNet with respect to
methods not based on unsupervised pre-training and generalizes to the tasks of
early action recognition and action recognition. To encourage research on this
challenging topic, we made our code, trained models, and pre-extracted features
available at our web page: http://iplab.dmi.unict.it/rulstm.
- Abstract(参考訳): 本稿では,カメラ装着者が近い将来にどのようなアクションを行うか,どのオブジェクトと相互作用するかを予測することを目的とした,自我中心のアクション予測問題に取り組む。
具体的には、エゴセントリックビデオからのアクションを予測する学習アーキテクチャであるローリング・ロールングLSTMに貢献する。
メソッドは3つのコンポーネントに基づいています。
1) 過去を要約し、未来を推測するサブタスクをモデル化する2つのLSTMからなるアーキテクチャ
2) LSTMが異なるサブタスクに集中するように促すシーケンス完了事前訓練手法
3) RGBフレーム, 光フロー場, オブジェクトベース特徴の処理により, マルチモーダル予測を効率よく融合するモードATTention(MATT)機構。
提案手法はEPIC-Kitchens、EGTEA Gaze+、ActivityNetで検証されている。
実験によると、提案されたアーキテクチャはエゴセントリックビデオの領域では最先端であり、2019年のepic-kitchens egocentric action anticipation challengeでトップパフォーマンスを達成した。
このアプローチは、教師なし事前訓練に基づく方法ではなく、早期行動認識と行動認識のタスクに一般化することに関して、activitynetの競合性能も達成している。
この課題に関する研究を奨励するために、私たちはコード、トレーニングされたモデル、事前抽出した機能をwebページで公開しました。
関連論文リスト
- Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge [11.429137967096935]
エゴセントリックなビデオ分析では,短期的な物体相互作用の予測が重要な課題である。
提案手法であるSOIA-DODは,1)アクティブオブジェクトの検出,2)インタラクションの分類とタイミングの予測に効果的に分解する。
提案手法は,まず,事前学習したYOLOv9を微調整することにより,エゴセントリックビデオの最終フレームにおける潜在能動物体を検知する。
論文 参考訳(メタデータ) (2024-07-08T08:13:16Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - JOADAA: joint online action detection and action anticipation [2.7792814152937027]
アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。
オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。
行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
論文 参考訳(メタデータ) (2023-09-12T11:17:25Z) - Temporal DINO: A Self-supervised Video Strategy to Enhance Action
Prediction [15.696593695918844]
本稿では、DINOにインスパイアされた行動予測(ラベルのない自己蒸留)を強化するための、新しい自己教師型ビデオ戦略を提案する。
実験結果は、3D-ResNet、Transformer、LSTMアーキテクチャで予測性能が大幅に向上したことを示している。
これらの知見は,行動認識,運動計画,シーン理解など,多様な映像ベースタスクにおけるアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2023-08-08T21:18:23Z) - Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T13:44:52Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Learning to Anticipate Future with Dynamic Context Removal [47.478225043001665]
将来のイベントを予想することは、インテリジェントシステムとAIの具体化にとって不可欠な機能である。
本研究では,動的文脈除去(DCR)と呼ばれる新しい学習手法を提案する。
我々の学習方式はプラグアンドプレイであり、トランスフォーマーやLSTMを含む推論モデルを統合することは容易であり、有効性と効率性の両方に利点がある。
論文 参考訳(メタデータ) (2022-04-06T05:24:28Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。