論文の概要: Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2603.05663v1
- Date: Thu, 05 Mar 2026 20:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.489319
- Title: Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding
- Title(参考訳): エビデンス・チェーンの維持:ビデオ時間グラウンドにおけるトレーニング不要のトーケン・プルーニングのためのセマンティック・エビデンス・アロケーション
- Authors: Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan,
- Abstract要約: Video Temporal Grounding (VTG)は、クエリ関連モーメントの時間的境界を、長い、トリミングされていないビデオでローカライズする。
本稿では,セマンティックな役割を持つコンパクトだがコヒーレントなトークンサブセットを構成する,トレーニング不要なプルーニングフレームワークSemVIDを提案する。
- 参考スコア(独自算出の注目度): 16.537148896706036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Temporal Grounding (VTG) localizes the temporal boundaries of a query-relevant moment in long, untrimmed videos, making video-language-model (VLM) pipelines prohibitively expensive. While recent training-free visual token pruning has shown success in video question answering, naively applying these objectives to VTG often causes drastic degradation, as VTG crucially depends on boundary-sensitive evidence and cross-frame reasoning chains. We therefore identify two VTG-specific pruning principles: Evidence Retention (ER), which keeps query-critical patches especially around event boundaries, and Connectivity Strength (CS), which preserves token-level cross-frame connectivity for long-range evidence aggregation. Building on these insights, we propose SemVID, a training-free pruning framework that constructs a compact yet coherent token subset with complementary semantic roles. SemVID first allocates per-frame token budgets by balancing query relevance and inter-frame variation to avoid over-pruned segments, and then selects three types of tokens: object tokens for diverse query-critical evidence, motion tokens to capture meaningful transitions and serve as cross-frame relays, and a small set of context tokens for scene continuity. Extensive experiments on VTG benchmarks show that SemVID achieves a strong accuracy-efficiency trade-off, retaining up to 95.4% mIoU with only 12.5% visual tokens and delivering up to a 5.8x prefill speedup, consistently outperforming prior methods under the same budgets.
- Abstract(参考訳): Video Temporal Grounding (VTG) は、クエリ関連モーメントの時間的境界を長い、トリミングされていないビデオにローカライズし、ビデオ言語モデル(VLM)パイプラインを違法に高価にする。
近年のトレーニングフリーなビジュアルトークンプルーニングは、ビデオ質問応答の成功を示しているが、VTGにこれらの目的を鼻で適用すると、境界に敏感な証拠やクロスフレーム推論の連鎖に依存するため、しばしば劇的な劣化を引き起こす。
そこで我々は,特にイベント境界付近でクエリクリティカルなパッチを保持するEvidence Retention(ER)と,長距離エビデンスアグリゲーションのためのトークンレベルのクロスフレーム接続を維持するConnectivity Strength(CS)の2つのVTG固有のプルーニング原則を同定した。
これらの知見に基づいて,SemVIDを提案する。SemVIDは,コンパクトで一貫性のあるトークンサブセットを補完的な意味的役割で構築する,トレーニング不要なプルーニングフレームワークである。
SemVIDはまず、クエリの関連性とフレーム間の変動のバランスをとることでフレーム単位のトークン予算を割り当て、次に、さまざまなクエリクリティカルなエビデンスのためのオブジェクトトークン、意味のあるトランジションをキャプチャしてクロスフレームリレーとして機能するモーショントークン、シーン連続性のためのコンテキストトークンの小さなセットの3種類のトークンを選択する。
VTGベンチマークの大規模な実験によると、SemVIDは95.4% mIoUとわずか12.5%の視覚トークンを持ち、最大5.8倍のプリフィルスピードアップを達成し、常に同じ予算の下で先行手法よりも優れた精度と効率のトレードオフを達成している。
関連論文リスト
- E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching [87.38371267983263]
時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。
E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。
E.M.Ground は最先端の Vid-LLM を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-05T02:16:00Z) - VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents [33.80068883432077]
この作業では、生成と理解の両方に使用できる統合ビデオトークン化フレームワークであるVTokを紹介している。
本稿では,映像の空間的・時間的表現を1つのキーフレームの空間的特徴を保ちながら,各フレームを1つの残差トークンに符号化することで分離することを提案する。
実験の結果,VTokはフレーム数とフレーム単位のトークン数から,映像表現の複雑さをその和に効果的に還元することがわかった。
論文 参考訳(メタデータ) (2026-02-04T04:39:46Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - ViGT: Proposal-free Video Grounding with Learnable Token in Transformer [28.227291816020646]
ビデオグラウンディングタスクは、リッチな言語的記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存のプロポーザルフリーメソッドは、ビデオとクエリ間の複雑な相互作用に閉じ込められている。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:30:08Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。