論文の概要: VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
- arxiv url: http://arxiv.org/abs/2403.02076v1
- Date: Mon, 4 Mar 2024 14:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:25:18.551347
- Title: VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
- Title(参考訳): VTG-GPT:GPTによる調整不要ゼロショットビデオグラウンド
- Authors: Yifang Xu, Yunzhuo Sun, Zien Xie, Benxiang Zhai, and Sidan Du
- Abstract要約: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、未編集のビデオから特定の時間セグメントを特定することを目的としている。
既存のVTGモデルは、広範囲な注釈付きビデオテキストペアで訓練されている。
トレーニングや微調整を伴わないゼロショットVTGのためのGPT方式であるVTG-GPTを提案する。
- 参考スコア(独自算出の注目度): 1.614471032380076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) aims to locate specific temporal segments from
an untrimmed video based on a linguistic query. Most existing VTG models are
trained on extensive annotated video-text pairs, a process that not only
introduces human biases from the queries but also incurs significant
computational costs. To tackle these challenges, we propose VTG-GPT, a
GPT-based method for zero-shot VTG without training or fine-tuning. To reduce
prejudice in the original query, we employ Baichuan2 to generate debiased
queries. To lessen redundant information in videos, we apply MiniGPT-v2 to
transform visual content into more precise captions. Finally, we devise the
proposal generator and post-processing to produce accurate segments from
debiased queries and image captions. Extensive experiments demonstrate that
VTG-GPT significantly outperforms SOTA methods in zero-shot settings and
surpasses unsupervised approaches. More notably, it achieves competitive
performance comparable to supervised methods. The code is available on
https://github.com/YoucanBaby/VTG-GPT
- Abstract(参考訳): video temporal grounding (vtg) は、言語的問合せに基づく未トリミングビデオから特定の時間的セグメントを見つけることを目的としている。
既存のVTGモデルの多くは、広範囲な注釈付きビデオテキストペアでトレーニングされている。
これらの課題に対処するために,訓練や微調整を伴わないゼロショットVTGのためのGPTベースの手法であるVTG-GPTを提案する。
元のクエリの偏見を低減するために、ベイチュアン2を用いてデバイアスドクエリを生成する。
ビデオにおける冗長な情報を減らすために,MiniGPT-v2を用いて視覚コンテンツをより正確な字幕に変換する。
最後に、デバイアスドクエリと画像キャプションから正確なセグメントを生成するための提案生成と後処理を考案する。
広汎な実験により、VTG-GPTはゼロショット設定でSOTA法を著しく上回り、教師なしアプローチを超越していることが示された。
さらに注目すべきは、教師付きメソッドに匹敵する競争性能を達成することだ。
コードはhttps://github.com/YoucanBaby/VTG-GPTで入手できる。
関連論文リスト
- Number it: Temporal Grounding Videos like Flipping Manga [45.50403831692172]
Number-Prompt (NumPro) は、Vid-LLMに時間的接地による視覚的理解をブリッジする手法である。
NumProは動画をフレーム画像のシーケンスとして扱い、VTGを直感的なプロセスに変換します。
実験により、NumProは計算コストを伴わずに最上位のVid-LLMのVTG性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-11-15T16:32:34Z) - ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding [90.21119832796136]
時間的ビデオグラウンディング(Temporal Video Grounding)は、言語の説明から見れば、トリミングされていないビデオから瞬間をローカライズすることを目的としている。
従来のパラダイムの欠点を回避するため,TVGの新しいビジョン言語事前学習パラダイムであるAutoTVGを提案する。
論文 参考訳(メタデータ) (2024-06-11T09:31:37Z) - VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [7.907951246007355]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当てている。
ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げてきたが、ビデオ内のタイムスタンプを正確に特定する上で、しばしば課題に直面している。
本稿では,VTGタスクのための特殊なビデオLLMモデルであるVTG-LLMを提案し,タイムスタンプの知識を視覚トークンに効果的に統合する。
論文 参考訳(メタデータ) (2024-05-22T06:31:42Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。