Fugu-MT 論文翻訳(概要): Long Short-Term Transformer for Online Action Detection

論文の概要: Long Short-Term Transformer for Online Action Detection

arxiv url: http://arxiv.org/abs/2107.03377v1
Date: Wed, 7 Jul 2021 17:49:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-08 15:07:28.571892
Title: Long Short-Term Transformer for Online Action Detection
Title（参考訳）: オンライン動作検出のための長期短時間変圧器
Authors: Mingze Xu, Yuanjun Xiong, Hao Chen, Xinyu Li, Wei Xia, Zhuowen Tu, Stefano Soatto
Abstract要約: Long Short-term TRansformer (LSTR) はオンライン行動検出のための新しい時間的モデリングアルゴリズムである。以前の研究と比較すると、LSTRはアルゴリズム設計の少ない長編動画を効果的かつ効率的にモデル化する方法を提供する。
参考スコア（独自算出の注目度）: 96.23884916995978
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present Long Short-term TRansformer (LSTR), a new temporal modeling algorithm for online action detection, by employing a long- and short-term memories mechanism that is able to model prolonged sequence data. It consists of an LSTR encoder that is capable of dynamically exploiting coarse-scale historical information from an extensively long time window (e.g., 2048 long-range frames of up to 8 minutes), together with an LSTR decoder that focuses on a short time window (e.g., 32 short-range frames of 8 seconds) to model the fine-scale characterization of the ongoing event. Compared to prior work, LSTR provides an effective and efficient method to model long videos with less heuristic algorithm design. LSTR achieves significantly improved results on standard online action detection benchmarks, THUMOS'14, TVSeries, and HACS Segment, over the existing state-of-the-art approaches. Extensive empirical analysis validates the setup of the long- and short-term memories and the design choices of LSTR.
Abstract（参考訳）: 本稿では,オンライン行動検出のための時間的モデリングアルゴリズムであるLong Short-term TRansformer(LSTR)を提案する。 LSTRエンコーダは、広範に長い時間枠(例えば、2048の長距離フレーム最大8分)から粗大な歴史的情報を動的に活用できるとともに、短い時間枠(例えば、32の短距離フレーム最大8秒)に焦点を当てたLSTRデコーダにより、進行中のイベントの詳細な特徴をモデル化する。以前の研究と比較すると、LSTRはよりヒューリスティックなアルゴリズム設計で長い動画を効果的かつ効率的にモデル化する方法を提供する。 LSTRは、既存の最先端のアプローチよりも、標準のオンラインアクション検出ベンチマークTHUMOS'14、TVSeries、HACS Segmentで大幅に改善されている。広範囲にわたる経験分析により、長期記憶と短期記憶のセットアップとLSTRの設計選択が検証される。

関連論文リスト

Hierarchical Document Refinement for Long-context Retrieval-augmented Generation [28.421675216147374]
LongRefinerは、長いドキュメントの固有の構造特性を利用する効率的なプラグアンドプレイ精製機である。 LongRefinerは、最高のベースラインに比べて計算コストとレイテンシを10倍少なくしながら、さまざまなシナリオで競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-05-15T15:34:15Z)
Balancing long- and short-term dynamics for the modeling of saliency in videos [14.527351636175615]
本稿では,ビデオフレームの連立表現と過去の唾液度情報を学習するためのトランスフォーマーに基づくアプローチを提案する。本モデルでは,映像中の塩分濃度の動的変動を検出するために,長期的,短期的な情報を埋め込んだ。
論文参考訳（メタデータ） (2025-04-08T11:09:37Z)
Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳（メタデータ） (2025-03-09T06:16:49Z)
Breaking the Context Bottleneck on Long Time Series Forecasting [6.36010639533526]
長期の時系列予測は、経済、エネルギー、輸送における計画と意思決定に不可欠である。最近の進歩によりこれらのモデルの効率は向上したが、より長いシーケンスを効果的に活用することの難しさは持続している。長いシーケンスの効率的かつ効率的な処理を実現するために,Logsparse Decomposable Multiscaling (LDM) フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-21T10:29:34Z)
LOGO -- Long cOntext aliGnment via efficient preference Optimization [29.510993993980573]
LOGO(Long cOntext aliGnment via efficient preference optimization)は、長文アライメントのための優先最適化を導入するトレーニング戦略である。たった0.3Bのデータを1台の8$times$A800 GPUマシンで16時間トレーニングすることで、LOGOはLlama-3-8B-Instruct-80KモデルをGPT-4と同等のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-10-24T08:27:26Z)
Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-10-07T03:38:27Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Bidirectional Long-Range Parser for Sequential Data Understanding [3.76054468268713]
BLRP(Bidirectional Long-Range)は,長距離タスクの性能向上と効率向上を目的とした,新規で汎用的なアテンション機構である。我々は、最先端の手法に対する競争結果を示すことによって、ビジョンと言語ドメインに対するアプローチの利点と汎用性を示す。
論文参考訳（メタデータ） (2024-04-08T05:45:03Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
Efficient Long-Short Temporal Attention Network for Unsupervised Video Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文参考訳（メタデータ） (2023-09-21T01:09:46Z)
A Novel Long-term Iterative Mining Scheme for Video Salient Object Detection [54.53335983750033]
短期的方法論は視覚システムの実際のメカニズムと矛盾する。そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
論文参考訳（メタデータ） (2022-06-20T04:27:47Z)
Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文参考訳（メタデータ） (2021-06-30T02:54:13Z)
Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。 UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文参考訳（メタデータ） (2020-08-30T15:38:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。