Fugu-MT 論文翻訳(概要): VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT

論文の概要: VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT

arxiv url: http://arxiv.org/abs/2403.02076v1
Date: Mon, 4 Mar 2024 14:22:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:25:18.551347
Title: VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
Title（参考訳）: VTG-GPT:GPTによる調整不要ゼロショットビデオグラウンド
Authors: Yifang Xu, Yunzhuo Sun, Zien Xie, Benxiang Zhai, and Sidan Du
Abstract要約: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、未編集のビデオから特定の時間セグメントを特定することを目的としている。既存のVTGモデルは、広範囲な注釈付きビデオテキストペアで訓練されている。トレーニングや微調整を伴わないゼロショットVTGのためのGPT方式であるVTG-GPTを提案する。
参考スコア（独自算出の注目度）: 1.614471032380076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video temporal grounding (VTG) aims to locate specific temporal segments from an untrimmed video based on a linguistic query. Most existing VTG models are trained on extensive annotated video-text pairs, a process that not only introduces human biases from the queries but also incurs significant computational costs. To tackle these challenges, we propose VTG-GPT, a GPT-based method for zero-shot VTG without training or fine-tuning. To reduce prejudice in the original query, we employ Baichuan2 to generate debiased queries. To lessen redundant information in videos, we apply MiniGPT-v2 to transform visual content into more precise captions. Finally, we devise the proposal generator and post-processing to produce accurate segments from debiased queries and image captions. Extensive experiments demonstrate that VTG-GPT significantly outperforms SOTA methods in zero-shot settings and surpasses unsupervised approaches. More notably, it achieves competitive performance comparable to supervised methods. The code is available on https://github.com/YoucanBaby/VTG-GPT
Abstract（参考訳）: video temporal grounding (vtg) は、言語的問合せに基づく未トリミングビデオから特定の時間的セグメントを見つけることを目的としている。既存のVTGモデルの多くは、広範囲な注釈付きビデオテキストペアでトレーニングされている。これらの課題に対処するために,訓練や微調整を伴わないゼロショットVTGのためのGPTベースの手法であるVTG-GPTを提案する。元のクエリの偏見を低減するために、ベイチュアン2を用いてデバイアスドクエリを生成する。ビデオにおける冗長な情報を減らすために,MiniGPT-v2を用いて視覚コンテンツをより正確な字幕に変換する。最後に、デバイアスドクエリと画像キャプションから正確なセグメントを生成するための提案生成と後処理を考案する。広汎な実験により、VTG-GPTはゼロショット設定でSOTA法を著しく上回り、教師なしアプローチを超越していることが示された。さらに注目すべきは、教師付きメソッドに匹敵する競争性能を達成することだ。コードはhttps://github.com/YoucanBaby/VTG-GPTで入手できる。

関連論文リスト

TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [83.96715649130435]
VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文参考訳（メタデータ） (2025-08-03T10:03:58Z)
Video-GPT via Next Clip Diffusion [14.832916520268105]
GPTは自然言語処理において顕著な成功を収めた。我々は映像を視覚世界モデリングの新しい言語として扱う。本稿では,ビデオ-GPTの事前学習のための新しいクリップ拡散パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-18T16:22:58Z)
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [63.37161241355025]
Video-MSGはマルチモーダル計画と構造化雑音初期化に基づくT2V生成のトレーニング不要手法である。ノイズインバージョンとデノベーションを通じて、ビデオスケッチで下流のT2V拡散モデルを導出する。ビデオMSGは、推論時間にメモリを追加して微調整や注意操作を必要としないため、大きなT2Vモデルを採用するのが簡単である。
論文参考訳（メタデータ） (2025-04-11T15:41:43Z)
Number it: Temporal Grounding Videos like Flipping Manga [45.50403831692172]
Number-Prompt (NumPro) は、Vid-LLMに時間的接地による視覚的理解をブリッジする手法である。 NumProは動画をフレーム画像のシーケンスとして扱い、VTGを直感的なプロセスに変換します。実験により、NumProは計算コストを伴わずに最上位のVid-LLMのVTG性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-11-15T16:32:34Z)
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文参考訳（メタデータ） (2024-10-01T08:27:56Z)
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding [90.21119832796136]
時間的ビデオグラウンディング(Temporal Video Grounding)は、言語の説明から見れば、トリミングされていないビデオから瞬間をローカライズすることを目的としている。従来のパラダイムの欠点を回避するため,TVGの新しいビジョン言語事前学習パラダイムであるAutoTVGを提案する。
論文参考訳（メタデータ） (2024-06-11T09:31:37Z)
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [7.907951246007355]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当てている。ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げてきたが、ビデオ内のタイムスタンプを正確に特定する上で、しばしば課題に直面している。本稿では,VTGタスクのための特殊なビデオLLMモデルであるVTG-LLMを提案し,タイムスタンプの知識を視覚トークンに効果的に統合する。
論文参考訳（メタデータ） (2024-05-22T06:31:42Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文参考訳（メタデータ） (2024-01-19T09:58:06Z)
UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文参考訳（メタデータ） (2023-07-31T14:34:49Z)
Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-04-20T11:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。