論文の概要: MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows
- arxiv url: http://arxiv.org/abs/2506.01119v1
- Date: Sun, 01 Jun 2025 18:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.942673
- Title: MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows
- Title(参考訳): MOOSE:光学的流れによる映像理解のための時間的ダイナミクスへの注意
- Authors: Hong Nguyen, Dung Tran, Hieu Hoang, Phong Nguyen, Shrikanth Narayanan,
- Abstract要約: MOOSEは、光フローと空間埋め込みを統合し、時間情報を効率的にモデル化する新しい時間中心ビデオエンコーダである。
従来のモデルとは異なり、MOOSEはビデオモデルをスクラッチからトレーニングする代わりに、リッチで広く訓練済みの視覚的および光学的フローエンコーダを利用する。
- 参考スコア(独自算出の注目度): 21.969862773424314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many motion-centric video analysis tasks, such as atomic actions, detecting atypical motor behavior in individuals with autism, or analyzing articulatory motion in real-time MRI of human speech, require efficient and interpretable temporal modeling. Capturing temporal dynamics is a central challenge in video analysis, often requiring significant computational resources and fine-grained annotations that are not widely available. This paper presents MOOSE (Motion Flow Over Spatial Space), a novel temporally-centric video encoder explicitly integrating optical flow with spatial embeddings to model temporal information efficiently, inspired by human perception of motion. Unlike prior models, MOOSE takes advantage of rich, widely available pre-trained visual and optical flow encoders instead of training video models from scratch. This significantly reduces computational complexity while enhancing temporal interpretability. Our primary contributions includes (1) proposing a computationally efficient temporally-centric architecture for video understanding (2) demonstrating enhanced interpretability in modeling temporal dynamics; and (3) achieving state-of-the-art performance on diverse benchmarks, including clinical, medical, and standard action recognition datasets, confirming the broad applicability and effectiveness of our approach.
- Abstract(参考訳): 原子行動、自閉症の個人における非定型運動行動の検出、人間の発話のリアルタイムMRIにおける調音運動の分析など、多くの動き中心のビデオ分析タスクは、効率的で解釈可能な時間的モデリングを必要とする。
時間的ダイナミクスのキャプチャは、ビデオ解析において中心的な課題であり、しばしば重要な計算資源と、広く利用できない細かいアノテーションを必要とする。
空間空間上の運動フロー(Motion Flow Over Space Space, MOOSE)は、人間の動きの知覚に触発されて、時間情報を効率的にモデル化するための空間埋め込みと光フローを明示的に統合したビデオエンコーダである。
従来のモデルとは異なり、MOOSEはビデオモデルをスクラッチからトレーニングする代わりに、リッチで広く訓練済みの視覚的および光学的フローエンコーダを利用する。
これは時間的解釈性を高めながら計算複雑性を著しく減少させる。
本研究の主な貢献は,(1)映像理解のための計算効率の良い時間中心アーキテクチャの提案(2)時間的ダイナミクスのモデル化における解釈可能性の向上,(3)臨床,医学,標準アクション認識データセットを含む多様なベンチマーク上での最先端性能の実現,そして,我々のアプローチの適用性と有効性を確認することである。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。
RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。
本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文 参考訳(メタデータ) (2025-05-26T13:06:01Z) - Neuromorphic spatiotemporal optical flow: Enabling ultrafast visual perception beyond human capabilities [12.409087198219693]
シナプストランジスタアレイに時間情報を直接符号化することで遅延ボトルネックに対処するニューロモルフィック光フロー手法を提案する。
従来の空間限定光流法と比較して,動作情報の時空間整合性を提供する。
ソフトウェアベンチマークでは、我々のシステムは400%のスピードアップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2024-09-10T10:59:32Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition [1.5237530964650965]
注意力をより効果的に利用し,手作り制約を必要としない新しいアプローチを提案する。
TuNeSは、畳み込みU-Net構造のコアに自己アテンションを組み込んだ、効率的でシンプルな時間モデルである。
TuNeSはColec80データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-07-19T14:10:55Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。