論文の概要: Unifying Specialized Visual Encoders for Video Language Models
- arxiv url: http://arxiv.org/abs/2501.01426v1
- Date: Thu, 02 Jan 2025 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:31.386368
- Title: Unifying Specialized Visual Encoders for Video Language Models
- Title(参考訳): ビデオ言語モデルのための特殊化ビジュアルエンコーダの統合
- Authors: Jihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky,
- Abstract要約: Video Large Language Models (VideoLLMs) は、視覚処理の全てを単一の視覚エンコーダに頼っている。
提案手法であるMERV(Multi-Encoder Representation of Videos)では,複数の凍結した映像エンコーダを用いて映像の統一表現を作成する。
MERVは、標準のスイートビデオ理解ベンチマークにおいて、Video-LLaVAよりも3.7%精度が良い。
- 参考スコア(独自算出の注目度): 38.89164471290503
- License:
- Abstract: The recent advent of Large Language Models (LLMs) has ushered sophisticated reasoning capabilities into the realm of video through Video Large Language Models (VideoLLMs). However, VideoLLMs currently rely on a single vision encoder for all of their visual processing, which limits the amount and type of visual information that can be conveyed to the LLM. Our method, MERV, Multi-Encoder Representation of Videos, instead leverages multiple frozen visual encoders to create a unified representation of a video, providing the VideoLLM with a comprehensive set of specialized visual knowledge. Spatio-temporally aligning the features from each encoder allows us to tackle a wider range of open-ended and multiple-choice video understanding questions and outperform prior state-of-the-art works. MERV is up to 3.7% better in accuracy than Video-LLaVA across the standard suite video understanding benchmarks, while also having a better Video-ChatGPT score. We also improve upon SeViLA, the previous best on zero-shot Perception Test accuracy, by 2.2%. MERV introduces minimal extra parameters and trains faster than equivalent single-encoder methods while parallelizing the visual processing. Finally, we provide qualitative evidence that MERV successfully captures domain knowledge from each of its encoders. Our results offer promising directions in utilizing multiple vision encoders for comprehensive video understanding.
- Abstract(参考訳): 最近のLarge Language Models (LLMs) の出現は、Video Large Language Models (VideoLLMs) を通じて、ビデオの領域に洗練された推論能力をもたらした。
しかし、現在、ビデオLLMは視覚処理の全てに単一の視覚エンコーダに依存しており、LLMに伝達できる視覚情報の量と種類を制限している。
提案手法であるMERV(Multi-Encoder Representation of Videos)では,複数の凍結した視覚エンコーダを用いて映像の統一表現を行い,ビデオLLMに視覚知識の包括的セットを提供する。
各エンコーダの機能の時空間的整合により、より広い範囲のオープンエンドおよびマルチチョイスビデオ理解問題に対処し、最先端の作業よりも優れたパフォーマンスを実現することができる。
MERVは、標準のスイートビデオ理解ベンチマークでビデオ-LLaVAよりも3.7%精度が向上し、ビデオ-ChatGPTスコアも改善された。
また、ゼロショット知覚テストの精度を2.2%向上させたSeViLAも改善した。
MERVは最小限のパラメータを導入し、ビジュアル処理を並列化しながら同等の単一エンコーダメソッドよりも高速に訓練する。
最後に、MERVが各エンコーダからドメインの知識を捕捉できるという定性的な証拠を提供する。
この結果から,複数の視覚エンコーダを包括的ビデオ理解に活用する上で,有望な方向性が得られた。
関連論文リスト
- VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding [59.020450264301026]
VideoLLaMA3は、画像とビデオの理解のためのより高度なマルチモーダル基盤モデルである。
VideoLLaMA3には、視覚適応、視覚言語調整、ファインチューニング、ビデオ中心のファインチューニングの4つのトレーニングステージがある。
VideoLLaMA3は、画像理解ベンチマークとビデオ理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-22T18:59:46Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。