論文の概要: LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs
- arxiv url: http://arxiv.org/abs/2402.13546v1
- Date: Wed, 21 Feb 2024 05:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:58:47.400341
- Title: LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs
- Title(参考訳): LLMsがLong Videoを発表:LLMのインタラクティブなビジュアルアダプタでロングビデオの理解を向上
- Authors: Yunxin Li, Xinyu Chen, Baotain Hu, Min Zhang
- Abstract要約: 長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
- 参考スコア(独自算出の注目度): 24.79384819644494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long video understanding is a significant and ongoing challenge in the
intersection of multimedia and artificial intelligence. Employing large
language models (LLMs) for comprehending video becomes an emerging and
promising method. However, this approach incurs high computational costs due to
the extensive array of video tokens, experiences reduced visual clarity as a
consequence of token aggregation, and confronts challenges arising from
irrelevant visual tokens while answering video-related questions. To alleviate
these issues, we present an Interactive Visual Adapter (IVA) within LLMs,
designed to enhance interaction with fine-grained visual elements.
Specifically, we first transform long videos into temporal video tokens via
leveraging a visual encoder alongside a pretrained causal transformer, then
feed them into LLMs with the video instructions. Subsequently, we integrated
IVA, which contains a lightweight temporal frame selector and a spatial feature
interactor, within the internal blocks of LLMs to capture instruction-aware and
fine-grained visual signals. Consequently, the proposed video-LLM facilitates a
comprehensive understanding of long video content through appropriate long
video modeling and precise visual interactions. We conducted extensive
experiments on nine video understanding benchmarks and experimental results
show that our interactive visual adapter significantly improves the performance
of video LLMs on long video QA tasks. Ablation studies further verify the
effectiveness of IVA in long and short video understandings.
- Abstract(参考訳): 長いビデオ理解は、マルチメディアと人工知能の交差において重要かつ進行中の課題である。
ビデオの解釈に大規模言語モデル(LLM)を採用することは、新しくて有望な方法である。
しかし, この手法は, ビデオトークンの広範囲な配列, トークン集約の結果視覚的明瞭度が低下したこと, ビデオ関連の疑問に答えながら, 無関係な視覚的トークンから生じる課題に直面することにより, 計算コストの増大を招く。
これらの問題を緩和するために、細粒度視覚要素との相互作用を強化するためにLLM内に対話型視覚適応器(IVA)を提案する。
具体的には、まず、訓練済みの因果変換器とともに視覚エンコーダを活用して、時間的ビデオトークンに変換し、ビデオ命令でLSMに供給する。
その後,ldmの内部ブロック内にライトウェイトな時空間フレームセレクタと空間的特徴インタラクタを含むivaを組み込み,命令認識および細粒度の視覚信号をキャプチャした。
その結果,提案するビデオllmは,適切なロングビデオモデリングと正確な視覚インタラクションを通じて,ビデオコンテンツの包括的理解を促進する。
9つのビデオ理解ベンチマークを広範囲に実験した結果,インタラクティブなビジュアルアダプタにより,長時間ビデオqaタスクにおけるビデオllmの性能が大幅に向上した。
アブレーション研究は、長短ビデオ理解におけるIVAの有効性をさらに検証する。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Understanding with Large Language Models: A Survey [101.91261236334486]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。
LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。
さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering [50.11756459499762]
軽量な視覚言語推論フレームワークLiVLRを提案する。
LiVLRは、まず、グラフベースの視覚と言語のアブリケーションを使用して、多義的な視覚と言語表現を得る。
提案したLiVLRは軽量で、2つのVideoQAベンチマークでパフォーマンス上の優位性を示す。
論文 参考訳(メタデータ) (2021-11-29T14:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。