論文の概要: Memory Consolidation Enables Long-Context Video Understanding
- arxiv url: http://arxiv.org/abs/2402.05861v1
- Date: Thu, 8 Feb 2024 17:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:51:05.060498
- Title: Memory Consolidation Enables Long-Context Video Understanding
- Title(参考訳): 長期ビデオ理解を可能にするメモリ統合
- Authors: Ivana Bala\v{z}evi\'c, Yuge Shi, Pinelopi Papalampidi, Rahma
Chaabouni, Skanda Koppula, Olivier J. H\'enaff
- Abstract要約: メモリ統合型視覚変換器(MC-ViT)は、そのコンテキストを過去まで拡張する。
MC-ViTは、Ego、Perception Test、Diving48の長文ビデオ理解の最先端を新たに設定する。
- 参考スコア(独自算出の注目度): 15.970175364112103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most transformer-based video encoders are limited to short temporal contexts
due to their quadratic complexity. While various attempts have been made to
extend this context, this has often come at the cost of both conceptual and
computational complexity. We propose to instead re-purpose existing pre-trained
video transformers by simply fine-tuning them to attend to memories derived
non-parametrically from past activations. By leveraging redundancy reduction,
our memory-consolidated vision transformer (MC-ViT) effortlessly extends its
context far into the past and exhibits excellent scaling behavior when learning
from longer videos. In doing so, MC-ViT sets a new state-of-the-art in
long-context video understanding on EgoSchema, Perception Test, and Diving48,
outperforming methods that benefit from orders of magnitude more parameters.
- Abstract(参考訳): ほとんどの変換器ベースのビデオエンコーダは、その2次複雑さのため、短い時間的コンテキストに限定される。
この文脈を拡張するために様々な試みがなされてきたが、概念と計算の複雑さの両面でコストがかかることがしばしばある。
そこで本稿では,過去のアクティベーションから非パラメトリックに派生した記憶への出席を単純に微調整することで,既存のビデオトランスフォーマーを再利用することを提案する。
冗長性低減を活用することで,メモリ集約型視覚トランスフォーマ(mc-vit)は,そのコンテキストを過去まで無力に拡張し,長いビデオから学ぶと優れたスケーリング行動を示す。
その際、mc-vitは egoschema, perception test, dive48 のlong-context video understanding で新たな最先端の手法を設定し、桁違いに多くのパラメータの恩恵を受ける手法よりも優れています。
関連論文リスト
- IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs [0.0]
我々は、新しいビジュアルコンプレッサー、IQViC(In-context, Question Adaptive Visual)を組み込んだ長期ビデオ理解のためのフレームワークを提案する。
IQViCはトランスフォーマーベースのビジュアル圧縮機であり、ビデオの完全な視覚的特徴に依存する既存の方法とは異なり、質問条件付きテキスト内圧縮を可能にする。
提案するIQViCフレームワークの有効性と,映像理解の精度とメモリ効率の観点から,最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T06:52:02Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Towards End-to-End Generative Modeling of Long Videos with
Memory-Efficient Bidirectional Transformers [13.355338760884583]
本稿では,ビデオの長期依存性をエンドツーエンドに学習するためのメモリ指向の双方向変換器(MeBT)を提案する。
本手法は,部分的に観察されたパッチからビデオの全時間容積を並列に復号する。
論文 参考訳(メタデータ) (2023-03-20T16:35:38Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。