論文の概要: VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
- arxiv url: http://arxiv.org/abs/2403.02076v1
- Date: Mon, 4 Mar 2024 14:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:25:18.551347
- Title: VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
- Title(参考訳): VTG-GPT:GPTによる調整不要ゼロショットビデオグラウンド
- Authors: Yifang Xu, Yunzhuo Sun, Zien Xie, Benxiang Zhai, and Sidan Du
- Abstract要約: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、未編集のビデオから特定の時間セグメントを特定することを目的としている。
既存のVTGモデルは、広範囲な注釈付きビデオテキストペアで訓練されている。
トレーニングや微調整を伴わないゼロショットVTGのためのGPT方式であるVTG-GPTを提案する。
- 参考スコア(独自算出の注目度): 1.614471032380076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) aims to locate specific temporal segments from
an untrimmed video based on a linguistic query. Most existing VTG models are
trained on extensive annotated video-text pairs, a process that not only
introduces human biases from the queries but also incurs significant
computational costs. To tackle these challenges, we propose VTG-GPT, a
GPT-based method for zero-shot VTG without training or fine-tuning. To reduce
prejudice in the original query, we employ Baichuan2 to generate debiased
queries. To lessen redundant information in videos, we apply MiniGPT-v2 to
transform visual content into more precise captions. Finally, we devise the
proposal generator and post-processing to produce accurate segments from
debiased queries and image captions. Extensive experiments demonstrate that
VTG-GPT significantly outperforms SOTA methods in zero-shot settings and
surpasses unsupervised approaches. More notably, it achieves competitive
performance comparable to supervised methods. The code is available on
https://github.com/YoucanBaby/VTG-GPT
- Abstract(参考訳): video temporal grounding (vtg) は、言語的問合せに基づく未トリミングビデオから特定の時間的セグメントを見つけることを目的としている。
既存のVTGモデルの多くは、広範囲な注釈付きビデオテキストペアでトレーニングされている。
これらの課題に対処するために,訓練や微調整を伴わないゼロショットVTGのためのGPTベースの手法であるVTG-GPTを提案する。
元のクエリの偏見を低減するために、ベイチュアン2を用いてデバイアスドクエリを生成する。
ビデオにおける冗長な情報を減らすために,MiniGPT-v2を用いて視覚コンテンツをより正確な字幕に変換する。
最後に、デバイアスドクエリと画像キャプションから正確なセグメントを生成するための提案生成と後処理を考案する。
広汎な実験により、VTG-GPTはゼロショット設定でSOTA法を著しく上回り、教師なしアプローチを超越していることが示された。
さらに注目すべきは、教師付きメソッドに匹敵する競争性能を達成することだ。
コードはhttps://github.com/YoucanBaby/VTG-GPTで入手できる。
関連論文リスト
- Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定T2Vモデル上に構築された専用コンポーネントを組み込んだ,VD-ITと呼ばれる新しいフレームワークを提案する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Depth-aware Test-Time Training for Zero-shot Video Object Segmentation [48.2238806766877]
テストタイムトレーニング(TTT)戦略を導入し,未確認ビデオへの一般化問題に対処する。
我々の重要な洞察は、TTプロセス中に一貫した深さを予測するためにモデルを強制することである。
提案するビデオTT戦略は,最先端のTT法よりも優れている。
論文 参考訳(メタデータ) (2024-03-07T06:40:53Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - ViGT: Proposal-free Video Grounding with Learnable Token in Transformer [28.227291816020646]
ビデオグラウンディングタスクは、リッチな言語的記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存のプロポーザルフリーメソッドは、ビデオとクエリ間の複雑な相互作用に閉じ込められている。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:30:08Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。