論文の概要: VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.03351v1
- Date: Tue, 05 May 2026 04:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.76124
- Title: VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models
- Title(参考訳): VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models
- Authors: JF Bastien, Sam D'Amico,
- Abstract要約: ビデオビジョン言語モデル(VLM)は、すでに教えてくれたストリームが安定している視覚状態に対して支払いを続けています。
我々は、無駄をトレーニングなしの反再計算として研究する: バリデーションが生き残るという状態の再利用。
凍結したQwen2.5-VL-7B-Instruct-4bitでは、適応的な同ビデオ追従再利用がペア選択と正確性を保存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video vision-language models (VLMs) keep paying for visual state the stream already told us was stable. The factory wall did not move, but most VLM pipelines still hand the model dense RGB frames or a fresh prefix again. We study that waste as training-free anti-recomputation: reuse state when validation says it survives, and buy fresh evidence when the scene, query, or cache topology requires it. The largest measured win is after ingest. On frozen Qwen2.5-VL-7B-Instruct-4bit, adaptive same-video follow-up reuse preserves paired choices and correctness on a 93-query VideoMME breadth setting while reducing follow-up latency by 14.90-35.92x. The first query is still cold; the win starts when later questions reuse the same video state. Stress tests bound the result: repeated-question schedules hold through 50 turns, while dense-answer-anchored prompt variation separates conservative fixed K=1 repair from faster aggressive policies that drift. Fresh-video pruning is smaller but real. C-VISION skips timed vision-tower work before the first answer is generated. On Gemma 4-E4B-4bit, the clean 32f short cell reaches 1.316x first-query speedup with no paired drift or parse failures on 20 items; Qwen shows the fidelity/speed boundary. Stage-share ceiling (C-CEILING) is the accounting guardrail: a component speedup becomes an end-to-end speedup only in proportion to the wall-clock share it accelerates, so C-VISION and after-ingest follow-up reuse do not multiply. Candidate C-STREAM remains a native-rate target, not a headline result here. The broader direction is VLM-native media that expose change, motion, uncertainty, object state, sensor time, and active tiles directly, so models do not have to rediscover the world from dense RGB every frame.
- Abstract(参考訳): ビデオビジョン言語モデル(VLM)は、すでに教えてくれたストリームが安定している視覚状態に対して支払いを続けています。
工場の壁は動かなかったが、ほとんどのVLMパイプラインは依然としてモデルのRGBフレームまたは新しいプレフィックスを手渡した。
我々は、このムダをトレーニングなしの反再計算として研究する: バリデーションが生き残るという状態の再利用と、シーン、クエリ、キャッシュトポロジが必要なときに新たな証拠を取得する。
最大の勝利は、摂取後の勝利である。
凍結したQwen2.5-VL-7B-Instruct-4bitでは、適応的な同ビデオ追従再利用により、93キューのビデオMME幅設定でペア選択と正しさを保ち、追従遅延を14.90-35.92倍削減する。
最初のクエリはまだ冷たく、後続の質問が同じビデオステートを再利用するときに勝利が始まります。
繰り返し要求スケジュールは50回にわたって保持されるが、密度の高い回答アンカレッドの急変は、より速い攻撃的な政策から保守的なK=1の修復を分離する。
新鮮なビデオプルーニングは小さいが本物だ。
C-VISIONは、第1の回答が生成される前に、タイムド・ビジョン・トワーワークをスキップする。
Gemma 4-E4B-4bitでは、クリーン32f短セルが20項目にペアドリフトやパース障害を伴わずに1.316倍の速さに到達している。
ステージシェア天井(C-CEILING)は会計ガードレールであり、部品のスピードアップは加速する壁面のシェアに比例してエンド・ツー・エンドのスピードアップとなるため、C-VISIONと後続の再利用は乗算しない。
C-STREAM候補は依然としてネイティブレートのターゲットであり、見出しの結果ではない。
より広い方向は、変化、動き、不確実性、オブジェクト状態、センサー時間、アクティブタイルを直接露光するVLMネイティブメディアである。
関連論文リスト
- Two-Pass Zero-Shot Temporal-Spatial Grounding of Rare Traffic Events in Surveillance Video [0.0]
実際のCCTV映像における地上交通事故は、ラベル付き事故映像のトレーニングがしばしば禁止される希少な問題である。
我々は、凍結した視覚言語モデルからこのジョイント出力を引き出す、微調整のパイプラインを提案する。
論文 参考訳(メタデータ) (2026-05-02T16:05:44Z) - Small Vision-Language Models are Smart Compressors for Long Video Understanding [73.65465038390771]
長時間のビデオ理解は、欲求に満ちたコンテキストではなく、意図駆動の効率に頼っている。
本稿では,下流の理解のために長い動画を圧縮する効率的なクエリ認識フレームワークであるTempoを提案する。
テストでは、Tempoが1時間のビデオを理論的限界以下に圧縮し、真のロングフォームビデオ理解が意図駆動の効率に依存することを示した。
論文 参考訳(メタデータ) (2026-04-09T11:40:25Z) - KV Cache Quantization for Self-Forcing Video Generation: A 33-Method Empirical Study [0.0]
本稿では, Wan2.1 ベースの自己強制スタック上での自己強制ビデオ生成のための KV-cache 圧縮に関する総合的研究を行う。
本研究は,33種類の量子化とキャッシュ・ポリティクス,610個のプロンプトレベルの観測,63個のベンチマークレベルの要約について検討した。
我々は,ピークVRAM,ランタイム,圧縮率,VBench画像品質,BF16参照忠実度(SSIM,LPIPS,PSNR),端末ドリフトを共同評価した。
論文 参考訳(メタデータ) (2026-03-29T01:35:16Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - StreamingVLM: Real-Time Understanding for Infinite Video Streams [23.94087606884915]
StreamingVLMは、無限視覚入力のリアルタイムで安定した理解のために設計されたモデルである。
私たちのアプローチは、トレーニングとストリーミング推論を整合させる統合フレームワークです。
Inf-Streams-Evalでは、StreamingVLMはGPT-4O miniに対して66.18%の勝利率を獲得し、1つのNVIDIA H100上で最大8FPSで安定したリアルタイムパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-10T17:59:58Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文 参考訳(メタデータ) (2025-06-05T17:31:17Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - INV: Towards Streaming Incremental Neural Videos [9.77463802740227]
近年の時間的フィールドではフリービュービデオが制作されているが、本質的にインタラクティブなストリーミングには適していない。
これらのアプローチでは、処理前にフレームのチャンク(多くの場合秒)をバッファする必要がある。
私たちは、フレーム・バイ・フレームのアプローチによるインタラクティブなストリーミングを、自然にラグのない形で進めています。
論文 参考訳(メタデータ) (2023-02-03T04:15:51Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。