論文の概要: Temporal Aggregate Representations for Long-Range Video Understanding
- arxiv url: http://arxiv.org/abs/2006.00830v2
- Date: Thu, 30 Jul 2020 23:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:15:01.406461
- Title: Temporal Aggregate Representations for Long-Range Video Understanding
- Title(参考訳): 長距離映像理解のための時間集約表現
- Authors: Fadime Sener and Dipika Singhania and Angela Yao
- Abstract要約: 将来の予測、特に長距離ビデオでは、現在と過去の観測から推論する必要がある。
フレキシブルな多粒質時間アグリゲーションフレームワークを用いて,時間的範囲,スケーリング,セマンティック抽象化のレベルに関する問題に対処する。
- 参考スコア(独自算出の注目度): 26.091400303122867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future prediction, especially in long-range videos, requires reasoning from
current and past observations. In this work, we address questions of temporal
extent, scaling, and level of semantic abstraction with a flexible
multi-granular temporal aggregation framework. We show that it is possible to
achieve state of the art in both next action and dense anticipation with simple
techniques such as max-pooling and attention. To demonstrate the anticipation
capabilities of our model, we conduct experiments on Breakfast, 50Salads, and
EPIC-Kitchens datasets, where we achieve state-of-the-art results. With minimal
modifications, our model can also be extended for video segmentation and action
recognition.
- Abstract(参考訳): 将来の予測、特に長距離ビデオでは、現在と過去の観測から推論する必要がある。
本研究では, 時間的範囲, スケーリング, セマンティック抽象化のレベルに関する問題を, 柔軟な多粒質時間的集約フレームワークを用いて解決する。
マックスプールや注意といった単純な手法で,次の行動と密集した予測の両方において,芸術の状態を実現できることを示す。
モデルの予測能力を実証するため、Breakfast、50Salads、EPIC-Kitchensデータセットで実験を行い、最先端の結果を得る。
最小限の変更で、ビデオセグメンテーションやアクション認識にも拡張できます。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。