論文の概要: Context-Enhanced Memory-Refined Transformer for Online Action Detection
- arxiv url: http://arxiv.org/abs/2503.18359v1
- Date: Mon, 24 Mar 2025 05:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:12.628176
- Title: Context-Enhanced Memory-Refined Transformer for Online Action Detection
- Title(参考訳): オンライン行動検出のためのコンテクスト強化メモリ精細変換器
- Authors: Zhanzhong Pang, Fadime Sener, Angela Yao,
- Abstract要約: オンラインアクション検出(OAD)は、過去の観測からストリーミングビデオのアクションを検出する。
最先端のOADアプローチは、過去の観測と、期待される未来との相互作用をモデル化する。
学習効率を阻害する既存のOAD手法におけるトレーニング推論の相違を同定する。
- 参考スコア(独自算出の注目度): 38.3281783368493
- License:
- Abstract: Online Action Detection (OAD) detects actions in streaming videos using past observations. State-of-the-art OAD approaches model past observations and their interactions with an anticipated future. The past is encoded using short- and long-term memories to capture immediate and long-range dependencies, while anticipation compensates for missing future context. We identify a training-inference discrepancy in existing OAD methods that hinders learning effectiveness. The training uses varying lengths of short-term memory, while inference relies on a full-length short-term memory. As a remedy, we propose a Context-enhanced Memory-Refined Transformer (CMeRT). CMeRT introduces a context-enhanced encoder to improve frame representations using additional near-past context. It also features a memory-refined decoder to leverage near-future generation to enhance performance. CMeRT achieves state-of-the-art in online detection and anticipation on THUMOS'14, CrossTask, and EPIC-Kitchens-100.
- Abstract(参考訳): オンラインアクション検出(OAD)は、過去の観測からストリーミングビデオのアクションを検出する。
最先端のOADアプローチは、過去の観測と期待される未来との相互作用をモデル化する。
過去は短期記憶と長期記憶を使ってエンコードされ、即時および長期の依存関係をキャプチャし、予測は将来の状況の欠如を補う。
学習効率を阻害する既存のOAD手法におけるトレーニング推論の相違を同定する。
トレーニングでは、様々な長さの短期記憶を使用し、推論は完全な短期記憶に依存している。
本稿では,CMeRT(Context-enhanced Memory-Refined Transformer)を提案する。
CMeRTは、コンテキスト拡張エンコーダを導入し、追加のニアパストコンテキストを用いてフレーム表現を改善する。
メモリ修正デコーダも備えており、性能向上のためにニアフューチャー・ジェネレーションを利用している。
CMeRTはTHUMOS'14、CrossTask、EPIC-Kitchens-100のオンライン検出と予測の最先端を実現している。
関連論文リスト
- An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - Online Temporal Action Localization with Memory-Augmented Transformer [61.39427407758131]
オンライン時間的行動ローカライゼーションのためのメモリ拡張変換器(MATR)を提案する。
MATRは過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。
また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T04:55:33Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Memory Consolidation Enables Long-Context Video Understanding [18.37093256935961]
メモリ統合型視覚変換器(MC-ViT)は、そのコンテキストを過去まで拡張する。
MC-ViTは、Ego、Perception Test、Diving48の長文ビデオ理解の最先端を新たに設定する。
論文 参考訳(メタデータ) (2024-02-08T17:50:22Z) - MM-Narrator: Narrating Long-form Videos with Multimodal In-Context
Learning [120.95150400119705]
GPT-4を利用した音声記述生成のためのマルチモーダルインコンテキスト学習システムMM-Narratorを提案する。
MM-Narratorは、時間を超えても、何時間も経過したビデオの正確な音声記述を自動回帰的に生成することに長けている。
逐次テキスト生成のための最初のセグメントベース評価器を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:27:00Z) - Memory-and-Anticipation Transformer for Online Action Understanding [52.24561192781971]
本稿では,過去,現在,未来を含む時間構造全体をモデル化する,メモリ予測に基づく新しいパラダイムを提案する。
本稿では,メモリ・アンド・アンティフィケーション・トランスフォーマ(MAT)を提案する。
論文 参考訳(メタデータ) (2023-08-15T17:34:54Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。