論文の概要: MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows
- arxiv url: http://arxiv.org/abs/2506.01119v1
- Date: Sun, 01 Jun 2025 18:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.942673
- Title: MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows
- Title(参考訳): MOOSE:光学的流れによる映像理解のための時間的ダイナミクスへの注意
- Authors: Hong Nguyen, Dung Tran, Hieu Hoang, Phong Nguyen, Shrikanth Narayanan,
- Abstract要約: MOOSEは、光フローと空間埋め込みを統合し、時間情報を効率的にモデル化する新しい時間中心ビデオエンコーダである。
従来のモデルとは異なり、MOOSEはビデオモデルをスクラッチからトレーニングする代わりに、リッチで広く訓練済みの視覚的および光学的フローエンコーダを利用する。
- 参考スコア(独自算出の注目度): 21.969862773424314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many motion-centric video analysis tasks, such as atomic actions, detecting atypical motor behavior in individuals with autism, or analyzing articulatory motion in real-time MRI of human speech, require efficient and interpretable temporal modeling. Capturing temporal dynamics is a central challenge in video analysis, often requiring significant computational resources and fine-grained annotations that are not widely available. This paper presents MOOSE (Motion Flow Over Spatial Space), a novel temporally-centric video encoder explicitly integrating optical flow with spatial embeddings to model temporal information efficiently, inspired by human perception of motion. Unlike prior models, MOOSE takes advantage of rich, widely available pre-trained visual and optical flow encoders instead of training video models from scratch. This significantly reduces computational complexity while enhancing temporal interpretability. Our primary contributions includes (1) proposing a computationally efficient temporally-centric architecture for video understanding (2) demonstrating enhanced interpretability in modeling temporal dynamics; and (3) achieving state-of-the-art performance on diverse benchmarks, including clinical, medical, and standard action recognition datasets, confirming the broad applicability and effectiveness of our approach.
- Abstract(参考訳): 原子行動、自閉症の個人における非定型運動行動の検出、人間の発話のリアルタイムMRIにおける調音運動の分析など、多くの動き中心のビデオ分析タスクは、効率的で解釈可能な時間的モデリングを必要とする。
時間的ダイナミクスのキャプチャは、ビデオ解析において中心的な課題であり、しばしば重要な計算資源と、広く利用できない細かいアノテーションを必要とする。
空間空間上の運動フロー(Motion Flow Over Space Space, MOOSE)は、人間の動きの知覚に触発されて、時間情報を効率的にモデル化するための空間埋め込みと光フローを明示的に統合したビデオエンコーダである。
従来のモデルとは異なり、MOOSEはビデオモデルをスクラッチからトレーニングする代わりに、リッチで広く訓練済みの視覚的および光学的フローエンコーダを利用する。
これは時間的解釈性を高めながら計算複雑性を著しく減少させる。
本研究の主な貢献は,(1)映像理解のための計算効率の良い時間中心アーキテクチャの提案(2)時間的ダイナミクスのモデル化における解釈可能性の向上,(3)臨床,医学,標準アクション認識データセットを含む多様なベンチマーク上での最先端性能の実現,そして,我々のアプローチの適用性と有効性を確認することである。
関連論文リスト
- Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition [1.5237530964650965]
注意力をより効果的に利用し,手作り制約を必要としない新しいアプローチを提案する。
TuNeSは、畳み込みU-Net構造のコアに自己アテンションを組み込んだ、効率的でシンプルな時間モデルである。
TuNeSはColec80データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-19T14:10:55Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。