論文の概要: Towards One-to-Many Temporal Grounding
- arxiv url: http://arxiv.org/abs/2606.06294v1
- Date: Thu, 04 Jun 2026 15:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.906817
- Title: Towards One-to-Many Temporal Grounding
- Title(参考訳): 1対1の時間的接地に向けて
- Authors: Qi Xu, Yue Tan, Shihao Chen, Jiahao Meng, Anna Wang, Shunping Ji, Hao Fei, Jason Li,
- Abstract要約: 現実世界のシナリオでは、単一のクエリに対して複数の分離セグメントをローカライズする必要があることが多い。
従来の最先端のMLLMは、1対1の設定に最適化されており、この状況では苦労している。
3つの重要なコントリビューションを持つシステマティックなソリューションを提示します。
- 参考スコア(独自算出の注目度): 37.64021368680856
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.
- Abstract(参考訳): 時間的グラウンド(TG)は、テキストクエリに対応するビデオセグメントをローカライズすることを目的としている。
以前の研究では、主に単一セグメントの検索に焦点が当てられていた。
しかし、現実のシナリオでは、1つのクエリで複数の非結合セグメントをローカライズする必要があります。
これまでの最先端のMLLMは、1対1の設定に最適化されており、この文脈で苦戦しており、多くの場合、事象の基数知覚が欠如しているため、ほぼゼロに近いスコアを得る。
このギャップを埋めるために、3つの重要なコントリビューションを持つ体系的なソリューションを提示します。
まず,評価指標としてCount Accuracy (C-Acc) と Effective Temporal F1 (EtF1) を導入した。
第2に、56kのサンプルからなる高品質なOMTGデータセットを、洗練された建設パイプラインを通してキュレートする。
第3に,OMTGに特化して設計された新しい時間・キャプション報酬機能を開発する。
特に、キャプション報酬は、密集したビデオキャプションに対するチェーン・オブ・ソート(Chain-of-Thought)の推論を利用して、ポリシーの最適化を正確性と完全性の両方に向けて明示的に導く。
実験の結果,OMTG Benchで43.65 %,Gemini 2.5 Pro,Seed-1.8で15.85 %,EtF1で15.61 %を達成できた。
関連論文リスト
- Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding [16.537148896706036]
Video Temporal Grounding (VTG)は、クエリ関連モーメントの時間的境界を、長い、トリミングされていないビデオでローカライズする。
本稿では,セマンティックな役割を持つコンパクトだがコヒーレントなトークンサブセットを構成する,トレーニング不要なプルーニングフレームワークSemVIDを提案する。
論文 参考訳(メタデータ) (2026-03-05T20:25:32Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching [87.38371267983263]
時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。
E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。
E.M.Ground は最先端の Vid-LLM を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-05T02:16:00Z) - OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios [39.58602686069029]
OmniGroundは、81のカテゴリにまたがる3,475の動画と複雑な現実世界のクエリを備えた総合的なベンチマークである。
また、4つの相補的な次元にわたるデータセット品質を定量化するシステム評価フレームワークであるDeepSTGについても紹介する。
実験では、PG-TAFはm_tIoUとm_vIoUを25.6%、35.6%改善し、4つのベンチマークで一貫した利得を得た。
論文 参考訳(メタデータ) (2025-11-21T04:23:04Z) - MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic
Video Segmentation [10.82074185158027]
撮影用長ビデオセグメンテーションのためのマルチモーダルアライメント(MultimodalalignedmEnt aGregation and distillAtion,MEGA)を提案する。
可変長と異なるモードの入力をアライメント位置符号化で粗いアライメントする。
MEGAは、モダリティ間でラベルを同期し、転送するために、新しい対照的な損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクセグメンテーションを可能にしている。
論文 参考訳(メタデータ) (2023-08-22T04:23:59Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。