論文の概要: Long Short-Term Transformer for Online Action Detection
- arxiv url: http://arxiv.org/abs/2107.03377v1
- Date: Wed, 7 Jul 2021 17:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 15:07:28.571892
- Title: Long Short-Term Transformer for Online Action Detection
- Title(参考訳): オンライン動作検出のための長期短時間変圧器
- Authors: Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Xia, Zhuowen Tu,
Stefano Soatto
- Abstract要約: Long Short-term TRansformer (LSTR) はオンライン行動検出のための新しい時間的モデリングアルゴリズムである。
以前の研究と比較すると、LSTRはアルゴリズム設計の少ない長編動画を効果的かつ効率的にモデル化する方法を提供する。
- 参考スコア(独自算出の注目度): 96.23884916995978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Long Short-term TRansformer (LSTR), a new temporal
modeling algorithm for online action detection, by employing a long- and
short-term memories mechanism that is able to model prolonged sequence data. It
consists of an LSTR encoder that is capable of dynamically exploiting
coarse-scale historical information from an extensively long time window (e.g.,
2048 long-range frames of up to 8 minutes), together with an LSTR decoder that
focuses on a short time window (e.g., 32 short-range frames of 8 seconds) to
model the fine-scale characterization of the ongoing event. Compared to prior
work, LSTR provides an effective and efficient method to model long videos with
less heuristic algorithm design. LSTR achieves significantly improved results
on standard online action detection benchmarks, THUMOS'14, TVSeries, and HACS
Segment, over the existing state-of-the-art approaches. Extensive empirical
analysis validates the setup of the long- and short-term memories and the
design choices of LSTR.
- Abstract(参考訳): 本稿では,オンライン行動検出のための時間的モデリングアルゴリズムであるLong Short-term TRansformer(LSTR)を提案する。
LSTRエンコーダは、広範に長い時間枠(例えば、2048の長距離フレーム最大8分)から粗大な歴史的情報を動的に活用できるとともに、短い時間枠(例えば、32の短距離フレーム最大8秒)に焦点を当てたLSTRデコーダにより、進行中のイベントの詳細な特徴をモデル化する。
以前の研究と比較すると、LSTRはよりヒューリスティックなアルゴリズム設計で長い動画を効果的かつ効率的にモデル化する方法を提供する。
LSTRは、既存の最先端のアプローチよりも、標準のオンラインアクション検出ベンチマークTHUMOS'14、TVSeries、HACS Segmentで大幅に改善されている。
広範囲にわたる経験分析により、長期記憶と短期記憶のセットアップとLSTRの設計選択が検証される。
関連論文リスト
- LOGO -- Long cOntext aliGnment via efficient preference Optimization [29.510993993980573]
LOGO(Long cOntext aliGnment via efficient preference optimization)は、長文アライメントのための優先最適化を導入するトレーニング戦略である。
たった0.3Bのデータを1台の8$times$A800 GPUマシンで16時間トレーニングすることで、LOGOはLlama-3-8B-Instruct-80KモデルをGPT-4と同等のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-10-24T08:27:26Z) - Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。
テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。
本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-07T03:38:27Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。
我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文 参考訳(メタデータ) (2024-04-08T05:45:03Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection [54.53335983750033]
短期的方法論は視覚システムの実際のメカニズムと矛盾する。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
論文 参考訳(メタデータ) (2022-06-20T04:27:47Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。