Fugu-MT 論文翻訳(概要): TLG: Temporal-Logic Grounding for Video Question Answering via Source-Annotation Reconstruction and Category-Targeted Reasoning

論文の概要: TLG: Temporal-Logic Grounding for Video Question Answering via Source-Annotation Reconstruction and Category-Targeted Reasoning

arxiv url: http://arxiv.org/abs/2606.01591v1
Date: Mon, 01 Jun 2026 02:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.878515
Title: TLG: Temporal-Logic Grounding for Video Question Answering via Source-Annotation Reconstruction and Category-Targeted Reasoning
Title（参考訳）: TLG:ソースアノテーション再構成とカテゴリー目標推論によるビデオ質問応答のための時間論理グラウンド
Authors: Ali Alavi,
Abstract要約: TimeLogic Challengeはビデオ上での時間的論理的推論を評価する。エンド・ツー・エンドのビデオ言語モデル(VLM)は、動画をフレームの袋として扱い、アクションの発生時にローカライズできないため、このタスクでほぼチャンスを逃す。 TLG(Temporal-Logic Grounding)は、ベンチマークが生成した公開ソースデータセットアノテーションから、各ビデオのアクションタイムラインを再構築する3層システムである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The TimeLogic Challenge evaluates formal temporal-logic reasoning over video - 16 operators (before, after, until, since, always, co-occur, ordering, ...) in boolean and 4-way multiple-choice form. End-to-end video-language models (VLMs) hover near chance on this task because they treat video as a bag of frames and cannot localize when actions occur. We present TLG (Temporal-Logic Grounding), a three-tier system that (i) reconstructs each video's action timeline from the public source-dataset annotations the benchmark was generated from, parses every question into a temporal-logic program, and executes it deterministically; (ii) falls back to a strong open VLM where no annotation exists; and (iii) routes only the question categories where the VLM is empirically weakest to a frontier reasoning model. TLG raises test accuracy from a 46.9% VLM baseline to 71.37%, a +24.5 absolute gain, reaching within 3 points of the leaderboard top. We report extensive ablations, including three model-based timeline-reconstruction variants that all underperform a holistic VLM, isolating temporal grounding as the irreducible bottleneck and showing that real annotations - not larger models - drive accuracy.
Abstract（参考訳）: TimeLogic Challengeは、ビデオ上の形式的時間的論理的推論を評価する - 16の演算子(前、後、後、後、後、後、常に共起、順序、...)をブールと4方向の多重選択形式で評価する。エンド・ツー・エンドのビデオ言語モデル(VLM)は、動画をフレームの袋として扱い、アクションの発生時にローカライズできないため、このタスクでほぼチャンスを逃す。 TLG(Temporal-Logic Grounding)は3層システムである。 i) ベンチマークが生成した公開ソースデータセットアノテーションから各ビデオのアクションタイムラインを再構築し、すべての質問を時間論理プログラムに解析し、決定的に実行する。 (ii)アノテーションが存在しない強いオープンなVLMにフォールバックし、 3) VLM がフロンティア推論モデルに対して経験的に最も弱い問題カテゴリのみをルートする。 TLGは46.9%のVLMベースラインから71.37%、+24.5の絶対ゲインまでテスト精度を上げ、トップの3ポイント以内に到達した。モデルベースのタイムライン再構成のバリエーションを3つ含み、総論的なVLMを全て過小評価し、時間的グラウンド化を既約のボトルネックとして分離し、実際のアノテーション(より大きなモデルではない)が正確であることを示す。

関連論文リスト

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文参考訳（メタデータ） (2026-04-27T10:45:51Z)
Vidi2: Large Multimodal Models for Video Understanding and Creation [39.82972197371385]
微粒な時間的接地(STG)によるVdi2ビデオ理解とビデオ質問応答能力の向上(ビデオQA) テキストクエリが与えられた場合、Vidi2は対応するタイムスタンプだけでなく、出力時間範囲内の対象オブジェクトのバウンディングボックスも識別できる。このエンドツーエンドの時間的グラウンド機能は、複雑な編集シナリオにおける潜在的なアプリケーションを可能にする。
論文参考訳（メタデータ） (2025-11-24T07:58:29Z)
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。 V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文参考訳（メタデータ） (2025-10-23T14:05:56Z)
Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文参考訳（メタデータ） (2025-07-07T06:51:40Z)
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning [40.18308199837137]
これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。 14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:44Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文参考訳（メタデータ） (2024-10-10T09:28:36Z)
Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。 LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-10-08T16:10:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。