論文の概要: IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs
- arxiv url: http://arxiv.org/abs/2412.09907v2
- Date: Mon, 16 Dec 2024 03:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:58.831387
- Title: IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs
- Title(参考訳): IQViC:長期ビデオ理解LMMのためのインコンテキスト, 質問適応型視覚圧縮機
- Authors: Sosuke Yamao, Natsuki Miyahara, Yuki Harazono, Shun Takeuchi,
- Abstract要約: 我々は、新しいビジュアルコンプレッサー、IQViC(In-context, Question Adaptive Visual)を組み込んだ長期ビデオ理解のためのフレームワークを提案する。
IQViCはトランスフォーマーベースのビジュアル圧縮機であり、ビデオの完全な視覚的特徴に依存する既存の方法とは異なり、質問条件付きテキスト内圧縮を可能にする。
提案するIQViCフレームワークの有効性と,映像理解の精度とメモリ効率の観点から,最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the increasing complexity of video data and the need for more efficient long-term temporal understanding, existing long-term video understanding methods often fail to accurately capture and analyze extended video sequences. These methods typically struggle to maintain performance over longer durations and to handle the intricate dependencies within the video content. To address these limitations, we propose a simple yet effective large multi-modal model framework for long-term video understanding that incorporates a novel visual compressor, the In-context, Question Adaptive Visual Compressor (IQViC). The key idea, inspired by humans' selective attention and in-context memory mechanisms, is to introduce a novel visual compressor and incorporate efficient memory management techniques to enhance long-term video question answering. Our framework utilizes IQViC, a transformer-based visual compressor, enabling question-conditioned in-context compression, unlike existing methods that rely on full video visual features. This selectively extracts relevant information, significantly reducing memory token requirements. Through extensive experiments on a new dataset based on InfiniBench for long-term video understanding, and standard benchmarks used for existing methods' evaluation, we demonstrate the effectiveness of our proposed IQViC framework and its superiority over state-of-the-art methods in terms of video understanding accuracy and memory efficiency.
- Abstract(参考訳): ビデオデータの複雑さの増大と、より効率的な時間的理解の必要性により、既存の長期ビデオ理解手法は、拡張されたビデオシーケンスを正確にキャプチャし分析するのに失敗することが多い。
これらの手法は、通常、長期間にわたってパフォーマンスを維持するのに苦労し、ビデオコンテンツ内の複雑な依存関係を扱うのに苦労する。
これらの制約に対処するために,新しいビジュアル圧縮機であるIQViC (In-context, Question Adaptive Visual Compressor) を組み込んだ,ビデオの長期理解のための,シンプルで効果的な大規模マルチモーダルモデルフレームワークを提案する。
人間の選択的注意とコンテキスト内メモリ機構に触発された鍵となるアイデアは、新しいビジュアルコンプレッサーを導入し、長期的なビデオ質問応答を強化するための効率的なメモリ管理技術を取り入れることである。
本フレームワークでは,フルビデオ映像機能に依存している既存の方法とは異なり,コンテクスト内圧縮が可能なトランスフォーマーベースのビジュアルコンプレッサーであるIQViCを使用している。
これにより、関連する情報を選択的に抽出し、メモリトークン要求を著しく低減する。
InfiniBenchをベースとした長期ビデオ理解のための新しいデータセットと,既存の手法の評価に用いる標準ベンチマークの広範な実験を通じて,提案手法の有効性と,映像理解精度とメモリ効率の観点からの最先端手法よりも優れたIQViCフレームワークの有効性を実証した。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models [25.668485023831874]
VidCompressは、メモリ拡張時間圧縮を備えた新しいビデオLLMである。
複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMを著しく上回る。
論文 参考訳(メタデータ) (2024-10-15T09:07:25Z) - HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - Memory Consolidation Enables Long-Context Video Understanding [18.37093256935961]
メモリ統合型視覚変換器(MC-ViT)は、そのコンテキストを過去まで拡張する。
MC-ViTは、Ego、Perception Test、Diving48の長文ビデオ理解の最先端を新たに設定する。
論文 参考訳(メタデータ) (2024-02-08T17:50:22Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。