論文の概要: Large-scale Vision-Language Models Learn Super Images for Efficient and
High-Performance Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2312.00414v1
- Date: Fri, 1 Dec 2023 08:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:19:01.981197
- Title: Large-scale Vision-Language Models Learn Super Images for Efficient and
High-Performance Partially Relevant Video Retrieval
- Title(参考訳): 大規模視覚言語モデルによる高能率・高能率部分関連映像検索のための超画像学習
- Authors: Taichi Nishimura and Shota Nakada and Masayoshi Kondo
- Abstract要約: 部分的関連ビデオ検索(PRVR)のための効率的かつ高性能な手法を提案する。
我々は、ビデオフレームをN倍のグリッドレイアウトで並べ替えることで生成されたスーパーイメージに焦点を当てる。
驚いたことに、単純なクエリイメージアテンショントリックにより、VLMはスーパーイメージに効果的に一般化される。
- 参考スコア(独自算出の注目度): 2.303098021872002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an efficient and high-performance method for
partially relevant video retrieval (PRVR), which aims to retrieve untrimmed
long videos that contain at least one relevant moment to the input text query.
In terms of both efficiency and performance, the overlooked bottleneck of
previous studies is the visual encoding of dense frames. This guides
researchers to choose lightweight visual backbones, yielding sub-optimal
retrieval performance due to their limited capabilities of learned visual
representations. However, it is undesirable to simply replace them with
high-performance large-scale vision-and-language models (VLMs) due to their low
efficiency. To address these issues, instead of dense frames, we focus on super
images, which are created by rearranging the video frames in a $N \times N$
grid layout. This reduces the number of visual encodings to $\frac{1}{N^2}$ and
compensates for the low efficiency of large-scale VLMs, allowing us to adopt
them as powerful encoders. Surprisingly, we discover that with a simple
query-image attention trick, VLMs generalize well to super images effectively
and demonstrate promising zero-shot performance against SOTA methods
efficiently. In addition, we propose a fine-tuning approach by incorporating a
few trainable modules into the VLM backbones. The experimental results
demonstrate that our approaches efficiently achieve the best performance on
ActivityNet Captions and TVR.
- Abstract(参考訳): 本稿では,入力テキストクエリに少なくとも1つの関連モーメントを含む長編長編ビデオの検索を目的とした,部分関連ビデオ検索(PRVR)の効率的かつ高性能な手法を提案する。
効率性と性能の両面で、これまでの研究で見過ごされたボトルネックは、高密度フレームの視覚的符号化である。
これにより、研究者は、学習された視覚表現の限られた能力のため、軽量な視覚バックボーンを選択することができる。
しかし、低効率のため、単に高性能な大規模視覚言語モデル(VLM)に置き換えることは望ましくない。
これらの問題に対処するために、高密度なフレームの代わりに、ビデオフレームを$N \times N$ gridレイアウトで並べ替えることで生成されるスーパーイメージに焦点を当てる。
これにより、ヴィジュアルエンコーディングの数を$\frac{1}{n^2}$に減らし、大規模なvlmの低効率を補うことができ、強力なエンコーダとしてそれらを採用できます。
驚くべきことに、単純なクエリイメージアテンショントリックにより、VLMはスーパーイメージを効果的に一般化し、SOTA法に対して有望なゼロショット性能を示す。
さらに,VLMバックボーンにいくつかのトレーニング可能なモジュールを組み込むことにより,微調整手法を提案する。
実験の結果,本手法は,ActivityNet CaptionsとTVRの最高の性能を効果的に達成できることが示された。
関連論文リスト
- AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction [10.579335027350263]
AdaCM$2$は、ビデオストリーム上のビデオテキストアライメントに対する適応型クロスモダリティメモリリダクションアプローチである。
最大65%のGPUメモリ消費削減で、LVUデータセットの複数のタスク間で4.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T18:04:13Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。