論文の概要: MovieChat: From Dense Token to Sparse Memory for Long Video
Understanding
- arxiv url: http://arxiv.org/abs/2307.16449v1
- Date: Mon, 31 Jul 2023 07:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:28:54.710248
- Title: MovieChat: From Dense Token to Sparse Memory for Long Video
Understanding
- Title(参考訳): moviechat: 密集したトークンから、長いビデオ理解のためのばらばらなメモリへ
- Authors: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou,
Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
- Abstract要約: MovieChatは、長いビデオ理解において最先端のパフォーマンスを達成する。
Atkinson-Shiffrinメモリモデルにインスパイアされ、高速に更新された短期記憶とコンパクトな長期記憶を含むメモリ機構を開発する。
- 参考スコア(独自算出の注目度): 32.41149802490603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.
- Abstract(参考訳): 近年,ビデオ基礎モデルと大規模言語モデルを統合することで,特定の視覚課題の限界を克服する映像理解システムの構築が進んでいる。
しかし既存のシステムは、フレーム数が少ないビデオしか扱えない。
長いビデオでは、計算の複雑さ、メモリコスト、長期の時間的接続が残る課題である。
アトキンソン・シフリンメモリモデルに触発されて,短期記憶の高速更新と長期記憶のコンパクト化を含むメモリ機構を開発した。
メモリのキャリアとして、トランスフォーマーにトークンを使用します。
MovieChatは、長いビデオ理解において最先端のパフォーマンスを達成する。
関連論文リスト
- MovieChat+: Question-aware Sparse Memory for Long Video Question Answering [36.14140811797466]
長編ビデオの理解という課題を克服するために,MovieChatを提案する。
我々はトランスフォーマーのトークンを特別な設計のメモリ機構と組み合わせてメモリのキャリアとして使用しています。
MovieChatは1Kの長ビデオと2Kの時間的グラウンドラベルと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長いビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-04-26T06:17:04Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。