論文の概要: TAG: A Simple Yet Effective Temporal-Aware Approach for Zero-Shot Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2508.07925v1
- Date: Mon, 11 Aug 2025 12:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.092991
- Title: TAG: A Simple Yet Effective Temporal-Aware Approach for Zero-Shot Video Temporal Grounding
- Title(参考訳): TAG:Zero-Shot Video Temporal Groundingのためのシンプルで効果的な時間認識アプローチ
- Authors: Jin-Seop Lee, SungJoon Lee, Jaehan Ahn, YunSeok Choi, Jee-Hyong Lee,
- Abstract要約: Video Temporal Groundingは、与えられた自然言語クエリに基づいて、関連するビデオセグメントを抽出することを目的としている。
従来のアプローチでは、同じ意味論を共有する時間的に連続したフレームが複数のセグメントに分割されるセマンティックな断片化に悩まされていた。
本稿では、時間プーリング、時間的コヒーレンスクラスタリング、類似度調整を取り入れた、ゼロショットビデオ時間的グラウンディングのための、シンプルで効果的な時間的認識アプローチを提案する。
- 参考スコア(独自算出の注目度): 12.57589714067771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Temporal Grounding (VTG) aims to extract relevant video segments based on a given natural language query. Recently, zero-shot VTG methods have gained attention by leveraging pretrained vision-language models (VLMs) to localize target moments without additional training. However, existing approaches suffer from semantic fragmentation, where temporally continuous frames sharing the same semantics are split across multiple segments. When segments are fragmented, it becomes difficult to predict an accurate target moment that aligns with the text query. Also, they rely on skewed similarity distributions for localization, making it difficult to select the optimal segment. Furthermore, they heavily depend on the use of LLMs which require expensive inferences. To address these limitations, we propose a \textit{TAG}, a simple yet effective Temporal-Aware approach for zero-shot video temporal Grounding, which incorporates temporal pooling, temporal coherence clustering, and similarity adjustment. Our proposed method effectively captures the temporal context of videos and addresses distorted similarity distributions without training. Our approach achieves state-of-the-art results on Charades-STA and ActivityNet Captions benchmark datasets without rely on LLMs. Our code is available at https://github.com/Nuetee/TAG
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、与えられた自然言語クエリに基づいて、関連するビデオセグメントを抽出することを目的としている。
近年,事前学習された視覚言語モデル(VLM)を利用して,目標モーメントのローカライズを行うゼロショットVTG手法が注目されている。
しかし、既存のアプローチはセマンティックな断片化に悩まされ、同じセマンティックスを共有する時間的に連続したフレームは複数のセグメントに分割される。
セグメントが断片化されると、テキストクエリと一致した正確なターゲットモーメントを予測することが難しくなる。
また、それらは局所化のために歪んだ類似性分布に依存しており、最適セグメントを選択することは困難である。
さらに、高価な推論を必要とするLSMの使用にも大きく依存している。
これらの制約に対処するために,時間プーリング,時間的コヒーレンスクラスタリング,類似度調整を組み込んだ,ゼロショットビデオ時間的グラウンディングのための,シンプルで効果的な時間的認識アプローチである \textit{TAG} を提案する。
提案手法は,ビデオの時間的文脈を効果的に把握し,類似度分布の歪みをトレーニングなしで検出する。
LLMを使わずにCharades-STAおよびActivityNet Captionsベンチマークデータセットの最先端結果を実現する。
私たちのコードはhttps://github.com/Nuetee/TAGで利用可能です。
関連論文リスト
- Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Video Activity Localisation with Uncertainties in Temporal Boundary [74.7263952414899]
時間とともにビデオ活動のローカライゼーションを行う方法は、時間的境界が決定され正確であると暗黙的に仮定する。
無記述の自然ビデオでは、異なるアクティビティがスムーズに移動するため、アクティビティの開始と終了が時間とともに正確にラベル付けされることは本質的に曖昧である。
フレキシブルかつ適応的な活動時間境界に対応するための弾性モーメントバウンディング(EMB)を導入する。
論文 参考訳(メタデータ) (2022-06-26T16:45:56Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。