論文の概要: Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks for Enhanced Action Understanding
- arxiv url: http://arxiv.org/abs/2508.07388v1
- Date: Sun, 10 Aug 2025 15:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.83561
- Title: Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks for Enhanced Action Understanding
- Title(参考訳): Invert4TVG: アクション理解の強化を目的としたインバージョンタスク付きテンポラルビデオグラウンドフレームワーク
- Authors: Zhaoyu Chen, Hongnan Lin, Yongwei Nie, Fei Ma, Xuemiao Xu, Fei Yu, Chengjiang Long,
- Abstract要約: 時間的ビデオグラウンド(TVG)は、与えられたテキストクエリと一致するビデオセグメントをローカライズする。
現在の手法では、ハイテンポラル・インターセクション・オーバ・ユニオン(IoU)を最適化する一方で、ビデオとクエリにおける意味的行動理解を妥協するこの指標に過度に適合することが多い。
Inversion Tasks for TVG (Invert4TVG) は,局部化精度と行動理解を付加データなしで向上する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 31.472828313904316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Video Grounding (TVG) seeks to localize video segments matching a given textual query. Current methods, while optimizing for high temporal Intersection-over-Union (IoU), often overfit to this metric, compromising semantic action understanding in the video and query, a critical factor for robust TVG. To address this, we introduce Inversion Tasks for TVG (Invert4TVG), a novel framework that enhances both localization accuracy and action understanding without additional data. Our approach leverages three inversion tasks derived from existing TVG annotations: (1) Verb Completion, predicting masked action verbs in queries from video segments; (2) Action Recognition, identifying query-described actions; and (3) Video Description, generating descriptions of video segments that explicitly embed query-relevant actions. These tasks, integrated with TVG via a reinforcement learning framework with well-designed reward functions, ensure balanced optimization of localization and semantics. Experiments show our method outperforms state-of-the-art approaches, achieving a 7.1\% improvement in R1@0.7 on Charades-STA for a 3B model compared to Time-R1. By inverting TVG to derive query-related actions from segments, our approach strengthens semantic understanding, significantly raising the ceiling of localization accuracy.
- Abstract(参考訳): 時間的ビデオグラウンド(TVG)は、与えられたテキストクエリと一致するビデオセグメントをローカライズする。
現在の手法では、高時間的インターセクション・オーバー・ユニオン(IoU)を最適化する一方で、ビデオとクエリにおける意味的行動理解をオーバーフィットさせ、堅牢なTVGにとって重要な要素である。
そこで本研究では,TVGのためのInversion Tasks for TVG(Invert4TVG)を提案する。
提案手法では,既存のTVGアノテーションから派生した3つの反転タスクを利用する。(1)ビデオセグメントからのクエリにおけるマスキングアクション動詞の予測,(2)クエリ記述されたアクションの識別,(3)ビデオ記述,およびクエリ関連アクションを明示的に埋め込んだビデオセグメントの記述を生成する。
これらのタスクは、よく設計された報酬関数を備えた強化学習フレームワークを通じてTVGと統合され、ローカライゼーションとセマンティクスのバランスよく最適化される。
実験により,本手法は,Time-R1と比較して3Bモデルに対してCharades-STA上でのR1@0.7の7.1\%向上を達成した。
本手法では,TVGを逆転させてセグメントからクエリ関連アクションを導出することにより,セマンティック理解を強化し,ローカライゼーション精度の天井を著しく向上させる。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。