論文の概要: WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs
- arxiv url: http://arxiv.org/abs/2602.22142v1
- Date: Wed, 25 Feb 2026 17:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.93326
- Title: WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs
- Title(参考訳): WeaveTime: 以前のフレームからビデオLLMの創発的なメモリへのストリーム
- Authors: Yulin Zhang, Cheng Shi, Sibei Yang,
- Abstract要約: WeaveTimeは、シンプルで効率的でモデルに依存しないフレームワークで、まず注文を教え、次に注文を使用する。
推論では、パスCurrent Dynamic Focus Cacheは不確実性トリガ、粗い粒度検索を実行し、必要なときにだけ履歴を拡大する。
これらの結果はWeaveTimeを、厳格なオンライン時間因果制約の下でビデオ-LLMをストリームする時間意識への実践的なパスとして確立する。
- 参考スコア(独自算出の注目度): 37.61875409530676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models have greatly improved visual understanding and reasoning, yet their quadratic attention and offline training protocols make them ill-suited for streaming settings where frames arrive sequentially and future observations are inaccessible. We diagnose a core limitation of current Video-LLMs, namely Time-Agnosticism, in which videos are treated as an unordered bag of evidence rather than a causally ordered sequence, yielding two failures in streams: temporal order ambiguity, in which the model cannot follow or reason over the correct chronological order, and past-current focus blindness where it fails to distinguish present observations from accumulated history. We present WeaveTime, a simple, efficient, and model agnostic framework that first teaches order and then uses order. We introduce a lightweight Temporal Reconstruction objective-our Streaming Order Perception enhancement-that instills order aware representations with minimal finetuning and no specialized streaming data. At inference, a Past-Current Dynamic Focus Cache performs uncertainty triggered, coarse-to-fine retrieval, expanding history only when needed. Plugged into exsiting Video-LLM without architectural changes, WeaveTime delivers consistent gains on representative streaming benchmarks, improving accuracy while reducing latency. These results establish WeaveTime as a practical path toward time aware stream Video-LLMs under strict online, time causal constraints. Code and weights will be made publicly available. Project Page: https://zhangyl4.github.io/publications/weavetime/
- Abstract(参考訳): マルチモーダル大規模言語モデルの最近の進歩は、視覚的理解と推論を大幅に改善しているが、その二次的注意とオフライントレーニングプロトコルは、フレームが順次到着し、将来の観測が不可能なストリーミング設定に不適である。
我々は、現在のビデオLLM(Time-Agnosticism)の中核的な限界を診断し、ビデオは因果的に順序づけられたシーケンスではなく、無秩序な証拠の袋として扱われ、ストリームに2つの失敗をもたらす。
WeaveTimeは、シンプルで効率的でモデルに依存しないフレームワークで、まず注文を教え、次に注文を使用する。
本稿では、最小限の微調整と特別なストリーミングデータのない順序認識表現を具現化する、軽量な時間再構成目標-our Streaming Order Perception拡張を導入する。
推論では、パスCurrent Dynamic Focus Cacheは不確実性トリガ、粗い粒度検索を実行し、必要なときにだけ履歴を拡大する。
アーキテクチャの変更なしにVideo-LLMの出力にプラグインされたWeaveTimeは、代表的なストリーミングベンチマークで一貫したゲインを提供し、レイテンシの低減と精度の向上を実現している。
これらの結果はWeaveTimeを、厳格なオンライン時間因果制約の下でビデオ-LLMをストリームする時間意識への実践的なパスとして確立する。
コードと重みは公開されます。
Project Page: https://zhangyl4.github.io/publications/weavetime/
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - DisTime: Distribution-based Time Representation for Video Large Language Models [23.176698643825123]
DisTimeは、ビデオLLMにおける時間的理解を強化するために設計された軽量フレームワークである。
DisTimeは、連続的な時間的埋め込みスペースを作成するために学習可能なトークンを使用する。
DisTimeは3つの時間に敏感なタスクでベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T08:10:18Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ODEStream: A Buffer-Free Online Learning Framework with ODE-based Adaptor for Streaming Time Series Forecasting [11.261457967759688]
ODEStreamはバッファフリーの連続的な学習フレームワークで、データ内の時間的依存関係をキャプチャするための時間的分離レイヤを備えている。
連続したデータ表現を生成し、データストリーミングシナリオにおける動的変更へのシームレスな適応を可能にする。
我々のアプローチは、過去のデータの動的および分布が時間とともにどのように変化するかを学ぶことに集中し、ストリーミングシーケンスの直接処理を容易にする。
論文 参考訳(メタデータ) (2024-11-11T22:36:33Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。