論文の概要: MMViR: A Multi-Modal and Multi-Granularity Representation for Long-range Video Understanding
- arxiv url: http://arxiv.org/abs/2601.05495v1
- Date: Fri, 09 Jan 2026 02:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.82263
- Title: MMViR: A Multi-Modal and Multi-Granularity Representation for Long-range Video Understanding
- Title(参考訳): MMViR:長距離ビデオ理解のためのマルチモーダル・マルチグラニュラリティ表現
- Authors: Zizhong Li, Haopeng Zhang, Jiawei Zhang,
- Abstract要約: 数分から数時間の長いビデオは、現在のマルチモーダルな大規模言語モデルにとって大きな課題となる。
長大なビデオ理解のためのマルチモーダルな多粒構造表現MMViRを提案する。
MMViRは、時間のビデオ理解において19.67%の改善を実現し、処理遅延を45.4%に削減した。
- 参考スコア(独自算出の注目度): 7.663791315702202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long videos, ranging from minutes to hours, present significant challenges for current Multi-modal Large Language Models (MLLMs) due to their complex events, diverse scenes, and long-range dependencies. Direct encoding of such videos is computationally too expensive, while simple video-to-text conversion often results in redundant or fragmented content. To address these limitations, we introduce MMViR, a novel multi-modal, multi-grained structured representation for long video understanding. MMViR identifies key turning points to segment the video and constructs a three-level description that couples global narratives with fine-grained visual details. This design supports efficient query-based retrieval and generalizes well across various scenarios. Extensive evaluations across three tasks, including QA, summarization, and retrieval, show that MMViR outperforms the prior strongest method, achieving a 19.67% improvement in hour-long video understanding while reducing processing latency to 45.4% of the original.
- Abstract(参考訳): 数分から数時間に及ぶ長いビデオは、複雑なイベント、多様なシーン、長距離依存関係のために、現在のマルチモーダル大規模言語モデル(MLLM)に重大な課題を提示している。
このようなビデオの直接エンコーディングは計算に高すぎるが、単純なビデオからテキストへの変換は、しばしば冗長あるいは断片化されたコンテンツをもたらす。
これらの制約に対処するために,長大なビデオ理解のための新しいマルチモーダルな多粒構造表現MMViRを導入する。
MMViRは、ビデオのセグメンテーションのための重要な旋回点を特定し、世界的物語と細かな視覚的詳細を結合する3段階の記述を構築する。
この設計は、効率的なクエリベースの検索をサポートし、様々なシナリオでうまく一般化する。
QA(英語版)、要約(英語版)、検索(英語版)を含む3つのタスクにわたる広範囲な評価は、MMViRが従来の最強の手法よりも優れており、処理遅延を45.4%に抑えながら、1時間の動画理解において19.67%改善していることを示している。
関連論文リスト
- Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models [28.68367581677484]
本稿では、情報密度に基づく適応型ビデオサンプリング(AVS)と、マルチモーダル大言語モデル(MLLM)と統合されたオートエンコーダベースの時間的ビデオ圧縮(SVC)を含む、長文ビデオ理解のための新しいエンドツーエンドスキーマを提案する。
提案システムでは,各期間の映像系列から重要な情報を適応的に取得し,重要な識別情報を保存しながら高い圧縮率を達成する。
論文 参考訳(メタデータ) (2026-02-19T22:04:27Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding [52.696422425058245]
視覚的エンコーダを備えた多モード大言語モデル(LLM)は、視覚的理解タスクにおいて有望な性能を示した。
本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-09-27T17:38:36Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [65.30592368928723]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。