Fugu-MT 論文翻訳(概要): A Paradigm Shift: Fully End-to-End Training for Temporal Sentence Grounding in Videos

論文の概要: A Paradigm Shift: Fully End-to-End Training for Temporal Sentence Grounding in Videos

arxiv url: http://arxiv.org/abs/2604.02860v1
Date: Fri, 03 Apr 2026 08:26:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.397818
Title: A Paradigm Shift: Fully End-to-End Training for Temporal Sentence Grounding in Videos
Title（参考訳）: パラダイムシフト:ビデオにおける時間文接地のための完全エンドツーエンドトレーニング
Authors: Allen He, Qi Liu, Kun Liu, Xinchen Liu, Wu Liu,
Abstract要約: ビデオの時間文グラウンド(TSGV)は、非トリミングビデオからの文クエリに意味的に対応する時間セグメントをローカライズすることを目的としている。現在のほとんどの手法では、オフライン機能抽出のために事前訓練されたクエリ非依存のビジュアルエンコーダを採用しており、ビデオバックボーンは凍結されており、TSGVに最適化されていない。本稿では,ビデオバックボーンとローカライゼーションヘッドを協調的に最適化する,完全なエンドツーエンドパラダイムを提案する。
参考スコア（独自算出の注目度）: 27.879461637513984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal sentence grounding in videos (TSGV) aims to localize a temporal segment that semantically corresponds to a sentence query from an untrimmed video. Most current methods adopt pre-trained query-agnostic visual encoders for offline feature extraction, and the video backbones are frozen and not optimized for TSGV. This leads to a task discrepancy issue for the video backbone trained for visual classification, but utilized for TSGV. To bridge this gap, we propose a fully end-to-end paradigm that jointly optimizes the video backbone and localization head. We first conduct an empirical study validating the effectiveness of end-to-end learning over frozen baselines across different model scales. Furthermore, we introduce a Sentence Conditioned Adapter (SCADA), which leverages sentence features to train a small portion of video backbone parameters adaptively. SCADA facilitates the deployment of deeper network backbones with reduced memory and significantly enhances visual representation by modulating feature maps through precise integration of linguistic embeddings. Experiments on two benchmarks show that our method outperforms state-of-the-art approaches. The code and models will be released.
Abstract（参考訳）: ビデオの時間文グラウンド(TSGV)は、非トリミングビデオからの文クエリに意味的に対応する時間セグメントをローカライズすることを目的としている。現在のほとんどの手法では、オフライン機能抽出のために事前訓練されたクエリ非依存のビジュアルエンコーダを採用しており、ビデオバックボーンは凍結されており、TSGVに最適化されていない。これにより、視覚分類のために訓練されたビデオバックボーンのタスクの不一致が問題となるが、TSGVで使用される。このギャップを埋めるために、ビデオバックボーンとローカライゼーションヘッドを協調的に最適化する完全なエンドツーエンドパラダイムを提案する。まず、異なるモデルスケールにわたる凍結ベースライン上でのエンドツーエンド学習の有効性を検証する実証的研究を行った。さらに,文の特徴を利用してビデオバックボーンパラメータの一部を適応的に訓練するSentence Conditioned Adapter (SCADA)を導入する。 SCADAは、メモリを削減したより深いネットワークバックボーンの展開を容易にし、言語埋め込みの正確な統合を通じて特徴マップを変調することにより、視覚的表現を大幅に強化する。 2つのベンチマーク実験により,本手法は最先端の手法よりも優れていることが示された。コードとモデルはリリースされる。

関連論文リスト

Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文参考訳（メタデータ） (2023-12-31T13:53:37Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2022-11-30T14:43:35Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文参考訳（メタデータ） (2022-03-28T17:59:54Z)
End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文参考訳（メタデータ） (2021-09-23T10:03:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。