論文の概要: LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification
- arxiv url: http://arxiv.org/abs/2602.23553v1
- Date: Thu, 26 Feb 2026 23:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.166714
- Title: LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification
- Title(参考訳): LE-NeuS:適応的時間的検証による潜時効果の高いニューロシンボリックビデオ理解
- Authors: Shawn Liang, Sahil Shah, Chengwei Zhou, SP Sharan, Harsh Goel, Arnab Sanyal, Sandeep Chinchali, Gourav Datta,
- Abstract要約: 本稿では、時間的論理誘導映像理解の精度を保った遅延効率のよいニューロシンボリック・フレームワークLE-NeuSを提案する。
LongVideoBench と Video-MME のベンチマークでは、LE-NeuS は遅延ギャップを 90x から 10x に削減し、時間的に複雑なクエリでは 10% の精度向上を維持している。
- 参考スコア(独自算出の注目度): 14.954035477725276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuro-symbolic approaches to long-form video question answering (LVQA) have demonstrated significant accuracy improvements by grounding temporal reasoning in formal verification. However, existing methods incur prohibitive latency overheads, up to 90x slower than base VLM prompting, rendering them impractical for latency-sensitive edge deployments. We present LE-NeuS, a latency-efficient neuro-symbolic framework that preserves the accuracy benefits of temporal logic-guided video understanding while drastically reducing inference latency. Our key insight is that the dominant computational bottleneck arises from sequential and dense proposition detection across video frames during automaton construction. We address this through two principled optimizations: (1) CLIP guided two-stage adaptive sampling that exploits visual redundancy to skip semantically similar frames while preserving temporal boundaries, and (2) batched proposition detection that parallelizes VLM inference across temporal windows. Theoretically, we derive latency bounds as a function of video length, proposition complexity, and sampling density, establishing conditions under which latency efficiency is achievable. Empirically, on LongVideoBench and Video-MME benchmarks deployed on NVIDIA H100 GPUs, LE-NeuS reduces the latency gap from 90x to approximately 10x while maintaining >10% accuracy gains on temporally complex queries.
- Abstract(参考訳): 長期ビデオ質問応答 (LVQA) に対するニューロシンボリックアプローチは, 形式的検証において時間的推論を基礎として, 大幅な精度向上を図っている。
しかしながら、既存のメソッドでは、VLMのプロンプトの最大90倍の遅延オーバーヘッドが発生しており、レイテンシに敏感なエッジデプロイメントでは現実的ではない。
本稿では,遅延効率の高いニューロシンボリック・フレームワークであるLE-NeuSを提案する。
我々の重要な洞察は、オートマトン構築中にビデオフレーム全体にわたる逐次的かつ高密度な命題検出から、支配的な計算ボトルネックが発生することである。
時間的境界を保ちながら視覚的冗長性を利用して意味的に類似したフレームをスキップする2段階適応サンプリング(CLIP)と、時間的ウィンドウをまたいでVLM推論を並列化するバッチ提案検出(Batched Proposal detection)である。
理論的には、レイテンシ境界をビデオ長、命題複雑性、サンプリング密度の関数として導き、レイテンシ効率が達成可能な条件を確立する。
経験的に、NVIDIA H100 GPUにデプロイされたLongVideoBenchとVideo-MMEベンチマークでは、LE-NeuSはレイテンシギャップを90倍から約10倍に削減し、時間的に複雑なクエリでは10%以上の精度向上を維持している。
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - StreamingAssistant: Efficient Visual Token Pruning for Accelerating Online Video Understanding [29.539015046656615]
重要な情報を保持しつつコンテキスト長を削減する手段としてトークンプルーニングを提案する。
具体的には、空間隣接ビデオトークン(MSSAVT)に対する最大類似性という新しい冗長度指標を導入する。
マスク付きプルーニング戦略も設計し、互いに不適切なトークンがプルーニングされることを保証します。
論文 参考訳(メタデータ) (2025-12-14T05:35:11Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。