論文の概要: Long Short-Term Transformer for Online Action Detection
- arxiv url: http://arxiv.org/abs/2107.03377v1
- Date: Wed, 7 Jul 2021 17:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 15:07:28.571892
- Title: Long Short-Term Transformer for Online Action Detection
- Title(参考訳): オンライン動作検出のための長期短時間変圧器
- Authors: Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Xia, Zhuowen Tu,
Stefano Soatto
- Abstract要約: Long Short-term TRansformer (LSTR) はオンライン行動検出のための新しい時間的モデリングアルゴリズムである。
以前の研究と比較すると、LSTRはアルゴリズム設計の少ない長編動画を効果的かつ効率的にモデル化する方法を提供する。
- 参考スコア(独自算出の注目度): 96.23884916995978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Long Short-term TRansformer (LSTR), a new temporal
modeling algorithm for online action detection, by employing a long- and
short-term memories mechanism that is able to model prolonged sequence data. It
consists of an LSTR encoder that is capable of dynamically exploiting
coarse-scale historical information from an extensively long time window (e.g.,
2048 long-range frames of up to 8 minutes), together with an LSTR decoder that
focuses on a short time window (e.g., 32 short-range frames of 8 seconds) to
model the fine-scale characterization of the ongoing event. Compared to prior
work, LSTR provides an effective and efficient method to model long videos with
less heuristic algorithm design. LSTR achieves significantly improved results
on standard online action detection benchmarks, THUMOS'14, TVSeries, and HACS
Segment, over the existing state-of-the-art approaches. Extensive empirical
analysis validates the setup of the long- and short-term memories and the
design choices of LSTR.
- Abstract(参考訳): 本稿では,オンライン行動検出のための時間的モデリングアルゴリズムであるLong Short-term TRansformer(LSTR)を提案する。
LSTRエンコーダは、広範に長い時間枠(例えば、2048の長距離フレーム最大8分)から粗大な歴史的情報を動的に活用できるとともに、短い時間枠(例えば、32の短距離フレーム最大8秒)に焦点を当てたLSTRデコーダにより、進行中のイベントの詳細な特徴をモデル化する。
以前の研究と比較すると、LSTRはよりヒューリスティックなアルゴリズム設計で長い動画を効果的かつ効率的にモデル化する方法を提供する。
LSTRは、既存の最先端のアプローチよりも、標準のオンラインアクション検出ベンチマークTHUMOS'14、TVSeries、HACS Segmentで大幅に改善されている。
広範囲にわたる経験分析により、長期記憶と短期記憶のセットアップとLSTRの設計選択が検証される。
関連論文リスト
- LOCOST: State-Space Models for Long Document Abstractive Summarization [78.85438991894253]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - The Bigger the Better? Rethinking the Effective Model Scale in Long-term
Time Series Forecasting [57.00348861248051]
時系列予測は時系列分析において重要なフロンティアである。
階層的な分解で拡張された軽量トランスフォーマーであるHDformerを紹介する。
HDformerは既存のLTSFモデルよりも優れており、パラメータは99%以上少ない。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Graph Based Long-Term And Short-Term Interest Model for Click-Through
Rate Prediction [8.679270588565398]
GLSMと呼ばれるグラフに基づく長期短期利害モデルを提案する。
長期ユーザ行動のキャプチャのための多目的グラフ構造と、短期情報モデリングのための多シナリオ異種シーケンスモデルと、長期および短期行動からの融合情報に対する適応的融合機構とから構成される。
論文 参考訳(メタデータ) (2023-06-05T07:04:34Z) - A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection [54.53335983750033]
短期的方法論は視覚システムの実際のメカニズムと矛盾する。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
論文 参考訳(メタデータ) (2022-06-20T04:27:47Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。