論文の概要: Video Panels for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2509.23724v1
- Date: Sun, 28 Sep 2025 08:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.401172
- Title: Video Panels for Long Video Understanding
- Title(参考訳): 長いビデオ理解のためのビデオパネル
- Authors: Lars Doorenbos, Federico Spurio, Juergen Gall,
- Abstract要約: 本稿では,長時間ビデオ理解に特化して設計された視覚的プロンプト戦略を提案する。
複数のフレームを1つの画像に組み合わせることで、時間分解能の空間的詳細を効果的に取り除くことができる。
我々のアプローチは、トレーニングフリー、パラメータフリー、モデル非依存であり、既存のビデオ言語モデルにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 25.560912635941662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Video-Language Models (VLMs) achieve promising results on long-video understanding, but their performance still lags behind that achieved on tasks involving images or short videos. This has led to great interest in improving the long context modeling of VLMs by introducing novel modules and additional complexity. % additional training time. In this paper, we take a different approach: rather than fine-tuning VLMs with the limited data available, we attempt to maximize the performance of existing models. To this end, we propose a novel visual prompting strategy specifically designed for long-video understanding. By combining multiple frames as panels into one image, we effectively trade off spatial details for temporal resolution. Our approach is training-free, parameter-free, and model-agnostic, and can be seamlessly integrated into existing VLMs. Extensive experiments on five established benchmarks across a wide range of model architectures, sizes, and context windows confirm the consistency of our approach. For the TimeScope (Long) dataset, which has the longest videos, the accuracy for video question answering is improved by up to 19.4\%. Overall, our method raises the bar for long video understanding models. We will make our code available upon acceptance.
- Abstract(参考訳): 最近のビデオ言語モデル(VLM)は、長いビデオ理解において有望な結果をもたらすが、画像やショートビデオを含むタスクで達成されたパフォーマンスは、まだ遅れている。
これにより、新しいモジュールの導入と複雑さの追加により、VLMの長期コンテキストモデリングの改善に大きな関心が寄せられている。
%増量した。
本稿では,限られたデータしか持たないVLMを微調整するのではなく,既存のモデルの性能を最大化しようと試みる。
そこで本研究では,映像理解に特化して設計された視覚的プロンプト戦略を提案する。
複数のフレームを1つの画像に組み合わせることで、時間分解能の空間的詳細を効果的に取り除くことができる。
我々のアプローチは、トレーニングフリー、パラメータフリー、モデル非依存であり、既存のVLMにシームレスに統合できる。
幅広いモデルアーキテクチャ、サイズ、コンテキストウィンドウにまたがる5つの確立されたベンチマークに関する大規模な実験は、我々のアプローチの一貫性を確認します。
最長ビデオを持つTimeScope(Long)データセットでは、ビデオ質問応答の精度が19.4\%向上している。
全体として,本手法は長大な映像理解モデルのバーを高くする。
私たちは受け入れ次第コードを利用できるようにします。
関連論文リスト
- Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。
VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。
推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文 参考訳(メタデータ) (2025-07-01T18:39:26Z) - Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文 参考訳(メタデータ) (2025-06-18T03:23:56Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。