Fugu-MT 論文翻訳(概要): Foresee-to-Ground: From Predictive Temporal Perception to Evidence-Driven Reasoning for Video Temporal Grounding

論文の概要: Foresee-to-Ground: From Predictive Temporal Perception to Evidence-Driven Reasoning for Video Temporal Grounding

arxiv url: http://arxiv.org/abs/2605.21973v1
Date: Thu, 21 May 2026 04:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 20:14:18.51917
Title: Foresee-to-Ground: From Predictive Temporal Perception to Evidence-Driven Reasoning for Video Temporal Grounding
Title（参考訳）: 予知的時間知覚から映像時間接地のための証拠駆動推論へ
Authors: Zelin Zheng, Xinyan Liu, Ruixin Li, Antoni B. Chan, Guorong Li, Qingming Huang, Laiyun Qing,
Abstract要約: ビデオ時間グラウンドのためのフォアシー・ツー・グラウンド(F2G)を提案する。 F2Gは予測的時間知覚とエビデンス駆動推論を統合している。さまざまなベンチマークでグラウンド化の精度を一貫して向上させる。
参考スコア（独自算出の注目度）: 86.37002814396674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current Video-LLM approaches for Video Temporal Grounding (VTG) typically rely on direct timestamp generation from an unstructured visual-token stream, often leading to brittle numerics and inconsistent boundaries. To address this, we propose Foresee-to-Ground (F2G), a framework that reformulates VTG as a verifiable Identify-then-Measure problem. F2G integrates Predictive Temporal Perception with Evidence-Driven Reasoning: it learns boundary-sensitive temporal representations to build a video-wide evidence pool of candidate event segments, and exposes these segments to the LLM as citable evidence units that bind boundary prediction to explicit event hypotheses. By decoupling event identification from precise boundary measurement, F2G stabilizes grounding and makes predictions verifiable. Extensive experiments demonstrate that F2G consistently improves grounding accuracy across diverse benchmarks, transfers robustly across different Video-LLM backbones, and preserves general video understanding capabilities.
Abstract（参考訳）: ビデオテンポラルグラウンドリング(VTG)の現在のビデオ-LLMアプローチは、通常、構造化されていないビジュアルトーケンストリームからの直接タイムスタンプ生成に依存しており、しばしば脆い数値と一貫性のない境界に繋がる。そこで我々は,VTGを検証可能なIdentify-then-Measure問題として再構成するフレームワークであるForesee-to-Ground (F2G)を提案する。 F2Gは、予測的時間知覚とエビデンス駆動推論を統合する: 境界に敏感な時間表現を学習して、候補イベントセグメントの動画全体にわたるエビデンスプールを構築し、これらのセグメントを、境界予測を明示的なイベント仮説にバインドする決定可能なエビデンスユニットとしてLLMに公開する。正確な境界測定から事象の識別を分離することにより、F2Gは接地を安定化し、予測を検証できる。大規模な実験により、F2Gは様々なベンチマークのグラウンドリング精度を一貫して改善し、ビデオ-LLMのバックボーン間で堅牢に転送し、一般的なビデオ理解能力を保ちます。

関連論文リスト

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding [16.537148896706036]
Video Temporal Grounding (VTG)は、クエリ関連モーメントの時間的境界を、長い、トリミングされていないビデオでローカライズする。本稿では,セマンティックな役割を持つコンパクトだがコヒーレントなトークンサブセットを構成する,トレーニング不要なプルーニングフレームワークSemVIDを提案する。
論文参考訳（メタデータ） (2026-03-05T20:25:32Z)
Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation [9.929390581043334]
ドメイン一般化ビデオセマンティック(DGVSS)は、単一のラベル付き駆動ドメインでトレーニングされる。 Time2Generalは、以前のDGVSSとVSSベースラインよりも、クロスドメインの精度と時間的安定性を大幅に改善する。
論文参考訳（メタデータ） (2026-02-10T10:55:25Z)
E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching [87.38371267983263]
時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。 E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。 E.M.Ground は最先端の Vid-LLM を著しく上回っている。
論文参考訳（メタデータ） (2026-02-05T02:16:00Z)
Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。現在のベンチマークは主に低フレームレートサンプリングに依存している。 Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文参考訳（メタデータ） (2025-09-17T17:34:40Z)
VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding [22.43740206690383]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定し、その時間間隔を正確に決定することを目的としている。 VAGUは、異常理解と接地を統合する最初のベンチマークである。 Glance then Scrutinize (GtS) はテキストプロンプトでガイドされるトレーニング不要のフレームワークである。また,意味的解釈可能性と時間的精度を共同で評価するJeAUG指標を提案する。
論文参考訳（メタデータ） (2025-07-29T05:17:48Z)
On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文参考訳（メタデータ） (2024-11-20T00:47:17Z)
Knowing Where to Focus: Event-aware Transformer for Video Grounding [40.526461893854226]
イベント対応動的モーメントクエリを定式化し、入力固有のコンテンツと動画の位置情報を考慮に入れます。実験では、イベント対応動的モーメントクエリの有効性と効率を実証し、いくつかのビデオグラウンドベンチマークで最先端のアプローチより優れていることを示した。
論文参考訳（メタデータ） (2023-08-14T05:54:32Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。