論文の概要: FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding
- arxiv url: http://arxiv.org/abs/2504.17447v1
- Date: Thu, 24 Apr 2025 11:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.339934
- Title: FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding
- Title(参考訳): FRAG:長いビデオと長いドキュメント理解のためのフレーム選択拡張ジェネレーション
- Authors: De-An Huang, Subhashree Radhakrishnan, Zhiding Yu, Jan Kautz,
- Abstract要約: 長い文脈LMMを使わずに長い入力を処理するためのフレーム選択拡張生成(FRAG)を提案する。
選択プロセスのコアは、長いコンテキスト処理を必要としない各フレームを独立にスコアリングすることで行われる。
FRAGは、長大なビデオと長大な文書理解の両面において、常に性能を向上し、最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 70.56829394569938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been impressive progress in Large Multimodal Models (LMMs). Recent works extend these models to long inputs, including multi-page documents and long videos. However, the model size and performance of these long context models are still limited due to the computational cost in both training and inference. In this work, we explore an orthogonal direction and process long inputs without long context LMMs. We propose Frame Selection Augmented Generation (FRAG), where the model first selects relevant frames within the input, and then only generates the final outputs based on the selected frames. The core of the selection process is done by scoring each frame independently, which does not require long context processing. The frames with the highest scores are then selected by a simple Top-K selection. We show that this frustratingly simple framework is applicable to both long videos and multi-page documents using existing LMMs without any fine-tuning. We consider two models, LLaVA-OneVision and InternVL2, in our experiments and show that FRAG consistently improves the performance and achieves state-of-the-art performances for both long video and long document understanding. For videos, FRAG substantially improves InternVL2-76B by 5.8% on MLVU and 3.7% on Video-MME. For documents, FRAG achieves over 20% improvements on MP-DocVQA compared with recent LMMs specialized in long document understanding. Code is available at: https://github.com/NVlabs/FRAG
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の進歩は目覚ましい。
最近の研究は、これらのモデルを複数ページのドキュメントや長いビデオを含む長い入力にまで拡張している。
しかしながら、これらの長いコンテキストモデルのモデルサイズと性能は、トレーニングと推論の両方の計算コストのために依然として制限されている。
本研究では,長い文脈LMMを使わずに直交方向を探索し,長い入力を処理する。
提案するフレーム選択拡張生成(FRAG)では,モデルがまず入力内の関連するフレームを選択し,次に選択したフレームに基づいて最終的な出力を生成する。
選択プロセスのコアは、長いコンテキスト処理を必要としない各フレームを独立にスコアリングすることで行われる。
そして、最高スコアのフレームを単純なトップK選択で選択する。
このフラストレーションに富んだ単純なフレームワークは,既存のLMMを用いた長いビデオと複数ページの文書に,微調整なしで適用可能であることを示す。
実験では,LLaVA-OneVision と InternVL2 の2つのモデルについて検討し,FRAG が連続的に性能を向上し,長大なビデオと長大な文書理解の両面において最先端のパフォーマンスを達成することを示す。
ビデオでは、FRAGはInternVL2-76BをMLVUで5.8%、Video-MMEで3.7%改善した。
文書に関して、FRAGは長文理解に特化した近年のLMMと比較して、MP-DocVQAの20%以上の改善を実現している。
コードは、https://github.com/NVlabs/FRAGで入手できる。
関連論文リスト
- BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - M-LLM Based Video Frame Selection for Efficient Video Understanding [60.93714759178143]
本稿では,ユーザのクエリに関連性の高いフレームを適応的に選択する,軽量なM-LLMベースのフレーム選択手法を提案する。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
論文 参考訳(メタデータ) (2025-02-27T01:44:13Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。