Fugu-MT 論文翻訳(概要): Efficient Video Representation Learning via Motion-Aware Token Selection

論文の概要: Efficient Video Representation Learning via Motion-Aware Token Selection

arxiv url: http://arxiv.org/abs/2211.10636v2
Date: Fri, 16 Jun 2023 06:57:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 18:15:16.545616
Title: Efficient Video Representation Learning via Motion-Aware Token Selection
Title（参考訳）: モーションアウェアトークン選択による効率的な映像表現学習
Authors: Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang
Abstract要約: Masked Video Modeling の手法は,ビデオの自己教師型学習において,従来の手法を著しく上回り,その可能性を実証した。我々は、リッチな動き特徴を含むトークンを発見し、非形式的なトークンをドロップする新しいトークン選択法MATS: Motion-Aware Token Selectionを提案する。本稿では,最小冗長度で情報的および因果的フレームに集中できる適応的フレーム選択戦略を提案する。
参考スコア（独自算出の注目度）: 58.98961894133091
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently emerged Masked Video Modeling techniques demonstrated their potential by significantly outperforming previous methods in self-supervised learning for video. However, they require an excessive amount of computations and memory while predicting uninformative tokens/frames due to random masking strategies, requiring excessive computing power for training. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose a new token selection method, MATS: Motion-Aware Token Selection, that finds tokens containing rich motion features and drops uninformative ones during both self-supervised pre-training and fine-tuning. We further present an adaptive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces computation and memory requirements, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy state-of-the-art methods on multiple benchmarks and on the uncurated Ego4D dataset. We are hopeful that the efficiency of our MATS will contribute to reducing the barrier to conducting further research on self-supervised learning for videos.
Abstract（参考訳）: 最近出現したMasked Video Modeling技術は、ビデオの自己教師型学習において、従来の手法を著しく上回り、その可能性を実証した。しかし、ランダムマスキング戦略による不正なトークンやフレームを予測しながら、過剰な計算とメモリを必要とするため、トレーニングには過剰な計算能力が必要になる。 (例:16ノード以上、128のNVIDIA A100 GPUを持つ)。この問題を解決するために,ビデオ中のパッチ間の不均一な情報密度を利用して新しいトークン選択手法MATS: Motion-Aware Token Selectionを提案する。さらに、最小冗長性で情報的および因果的フレームにフォーカスできる適応的なフレーム選択戦略を提案する。この手法は計算とメモリの要求を大幅に削減し、8gpuの単一マシンで事前トレーニングと微調整を可能にし、複数のベンチマークと未作成のego4dデータセットで計算とメモリに重い最先端の手法に匹敵する性能を達成する。私たちのマットの効率は、ビデオの自己監督学習に関するさらなる研究の障壁を減らすことに寄与することを期待しています。

関連論文リスト

Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。 Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文参考訳（メタデータ） (2026-01-29T09:23:13Z)
MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding [13.02027465520324]
構造的検索とRLに基づく蒸留を統合したMARCを提案する。 MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成する。これにより、リソース制約のある環境での効率的なリアルタイムビデオ理解の可能性を示す。
論文参考訳（メタデータ） (2025-10-09T08:07:19Z)
Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification [9.615466029246694]
Video-XL-2は、タスク対応KVスペーシングに基づく長時間ビデオ理解に優れたコスト効率を提供する新しいMLLMである。 NVIDIA A100(80GB)のGPUで1万フレーム以上を処理でき、数千フレームをほんの数秒で処理できる。
論文参考訳（メタデータ） (2025-06-24T01:19:56Z)
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文参考訳（メタデータ） (2025-04-21T17:57:21Z)
Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory [5.311777874655448]
Long-Video Memory Network、Long-VMNetは、新しいビデオ理解手法である。 Long-VMNetは、識別トークンを識別するニューラルサンプリングを利用することにより、効率の向上を実現している。本研究では,Rest-ADLデータセットを用いて,長文ビデオ検索と回答のための推論時間を18～75倍改善したことを示す。
論文参考訳（メタデータ） (2025-03-17T20:25:41Z)
TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler [10.92767902813594]
約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。 TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
論文参考訳（メタデータ） (2025-01-26T13:10:12Z)
Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-11-20T20:00:38Z)
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文参考訳（メタデータ） (2024-09-02T08:52:58Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文参考訳（メタデータ） (2023-03-29T14:28:41Z)
Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文参考訳（メタデータ） (2022-05-18T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。