論文の概要: Frames2LoRA: Parametric Video Internalization for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.04351v2
- Date: Wed, 10 Jun 2026 09:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.315174
- Title: Frames2LoRA: Parametric Video Internalization for Vision-Language Models
- Title(参考訳): Frames2LoRA:視覚言語モデルのためのパラメトリックビデオ内部化
- Authors: Manan Suri, Sarvesh Baskar, Dinesh Manocha,
- Abstract要約: Frames2LoRAはパラメトリックビデオ内部化の手法である。
知覚者ハイパーネットワークは、層ごとに生成された中間表現を読み出し、凍結されたVLMがビデオをエンコードする。
ローランド適応 (LoRA) アダプタを1つのフォワードパスで生成する。
- 参考スコア(独自算出の注目度): 52.46510577817688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference cost scales with every frame and every repeated query. We introduce Frames2LoRA, a method for parametric video internalization. A perceiver hypernetwork reads the intermediate representations produced layer-by-layer as a frozen VLM encodes a video, and generates a Low-Rank Adaptation (LoRA) adapter in a single forward pass. Unlike standard LoRA fine-tuning, which requires iterative gradient updates, Frames2LoRA predicts these weights directly from the video. Trained for SmolVLM2 500M and 2.2B on video summarization and captioning, Frames2LoRA enables the same frozen VLM to answer queries from the adapter alone, with zero visual tokens in its context at query time. Frames2LoRA is statistically non-inferior and equivalent to direct video-in-context inference across all five captioning benchmarks at both model scales, and across seven of eight video question answering benchmark-scale pairings. Although trained only on 12 frames at 384px, it remains stable up to 1,024 frames and 1024px, where direct video-in-context inference often degenerates. Across this sweep, it reduces answer-time visual-token load by up to 1,500x and query TTFT by 6-80x, while preserving video-faithful outputs. We also find that independently generated adapters for non-overlapping video segments can compose in rank space, suggesting a path toward chunked long-video internalization.
- Abstract(参考訳): 各フレームは数百のトークンを占有し、推論コストは各フレームと繰り返しクエリでスケールする。
パラメトリックビデオの内部化手法であるFrames2LoRAを紹介する。
知覚者ハイパーネットワークは、生成した中間表現を冷凍VLMとして読み出し、動画を符号化し、ローランド適応(LoRA)アダプタを1つのフォワードパスで生成する。
反復的な勾配更新を必要とする通常のLoRAの微調整とは異なり、Frames2LoRAはビデオから直接これらの重みを予測する。
SmolVLM2 500Mと2.2Bのビデオ要約とキャプションのために訓練されたFrames2LoRAは、同じ凍結したVLMでアダプタからのクエリに応答できる。
Frames2LoRAは統計的に非競合であり、両方のモデルスケールで5つのキャプションベンチマークと7つのビデオ質問応答ベンチマークスケールペアリングで直接ビデオ・イン・コンテクスト推論に等価である。
384pxで12フレームでしか訓練されていないが、1,024フレームと1024pxまで安定している。
このスイープ全体では、応答時の視覚的トーケン負荷を最大1,500倍削減し、TTFTを6-80倍までクエリし、ビデオに忠実な出力を保存する。
また,非重複ビデオセグメントに対する独立に生成されたアダプタは,階層化された長ビデオ内部化への道筋を示唆し,ランク空間で構成可能であることも見いだした。
関連論文リスト
- Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2025-12-09T09:40:20Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。
VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。
推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文 参考訳(メタデータ) (2025-07-01T18:39:26Z) - Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning [37.86612817818566]
そこで本稿では,関連ビデオフレームに推論ステップを接頭し,明示的に参照するビデオLLMを提案する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
これにより、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-05-31T00:08:21Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges [39.666361965650836]
VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。