論文の概要: Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2312.00414v2
- Date: Tue, 12 Mar 2024 02:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:16:23.099759
- Title: Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval
- Title(参考訳): 視覚言語モデルによる高効率部分関連映像検索のためのスーパーイメージ学習
- Authors: Taichi Nishimura and Shota Nakada and Masayoshi Kondo
- Abstract要約: 本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
- 参考スコア(独自算出の注目度): 2.303098021872002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an efficient and high-performance method for
partially relevant video retrieval, which aims to retrieve long videos that
contain at least one moment relevant to the input text query. The challenge
lies in encoding dense frames using visual backbones. This requires models to
handle the increased frames, resulting in significant computation costs for
long videos. To mitigate the costs, previous studies use lightweight visual
backbones, yielding sub-optimal retrieval performance due to their limited
capabilities. However, it is undesirable to simply replace the backbones with
high-performance large vision-and-language models (VLMs) due to their low
efficiency. To address this dilemma, instead of dense frames, we focus on super
images, which are created by rearranging the video frames in an $N \times N$
grid layout. This reduces the number of visual encodings to $\frac{1}{N^2}$ and
mitigates the low efficiency of large VLMs. Based on this idea, we make two
contributions. First, we explore whether VLMs generalize to super images in a
zero-shot setting. To this end, we propose a method called query-attentive
super image retrieval (QASIR), which attends to partial moments relevant to the
input query. The zero-shot QASIR yields two discoveries: (1) it enables VLMs to
generalize to super images and (2) the grid size $N$, image resolution, and VLM
size are key trade-off parameters between performance and computation costs.
Second, we introduce fine-tuning and hybrid QASIR that combines high- and
low-efficiency models to strike a balance between performance and computation
costs. This reveals two findings: (1) the fine-tuning QASIR enhances VLMs to
learn super images effectively, and (2) the hybrid QASIR minimizes the
performance drop of large VLMs while reducing the computation costs.
- Abstract(参考訳): 本稿では,入力テキストクエリに関連する少なくとも1つのモーメントを含む長大映像を検索することを目的とした,部分関連ビデオ検索のための効率的かつ高性能な手法を提案する。
この課題は、視覚的なバックボーンを使って高密度フレームをエンコードすることにある。
これにより、フレームの増大を扱うモデルが必要となり、長いビデオの計算コストが大幅に増大する。
コストを軽減するために、従来の研究では軽量な視覚バックボーンを使用しており、その限られた能力のため、最適以下の検索性能が得られる。
しかし、低効率のため、バックボーンを高性能な大規模視覚言語モデル(VLM)に置き換えることは望ましくない。
このジレンマに対処するために、高密度フレームの代わりに、ビデオフレームを$N \times N$ gridレイアウトで並べ替えることで生成されるスーパーイメージに焦点を当てる。
これにより、視覚符号化の回数を$\frac{1}{N^2}$に減らし、大きなVLMの低効率を緩和する。
このアイデアに基づいて、私たちは2つの貢献をします。
まず,vlmがゼロショット設定でスーパーイメージに一般化するかどうかを検討する。
そこで本研究では,入力クエリに関連する部分モーメントに対応するクエリ・アテンティブ・スーパーイメージ検索(qasir)という手法を提案する。
ゼロショットQASIRは、(1)VLMをスーパーイメージに一般化し、(2)グリッドサイズが$N$、画像解像度、およびVLMサイズがパフォーマンスと計算コストの間の重要なトレードオフパラメータである、という2つの発見をもたらす。
第2に,高効率モデルと低効率モデルを組み合わせた微調整ハイブリッドQASIRを導入し,性能と計算コストのバランスをとる。
この結果から,(1)微調整QASIRはスーパーイメージを効果的に学習するためにVLMを強化し,(2)ハイブリッドQASIRは計算コストを低減しつつ,大規模VLMの性能低下を最小限に抑えていることがわかった。
関連論文リスト
- FastVLM: Efficient Vision Encoding for Vision Language Models [22.41836943083826]
我々は,レイテンシ,モデルサイズ,精度のトレードオフを最適化したモデルであるFastVLMを紹介する。
FastVLMは、より少ないトークンを出力し、高解像度画像の符号化時間を著しく短縮するように設計された、新しいハイブリッドビジョンエンコーダであるFastViTHDを組み込んでいる。
論文 参考訳(メタデータ) (2024-12-17T20:09:55Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。