Fugu-MT 論文翻訳(概要): UniVTG: Towards Unified Video-Language Temporal Grounding

論文の概要: UniVTG: Towards Unified Video-Language Temporal Grounding

arxiv url: http://arxiv.org/abs/2307.16715v2
Date: Fri, 18 Aug 2023 07:56:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 22:36:47.751873
Title: UniVTG: Towards Unified Video-Language Temporal Grounding
Title（参考訳）: UniVTG: 統合ビデオ言語時間グラウンドを目指して
Authors: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
Abstract要約: Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
参考スコア（独自算出の注目度）: 52.56732639951834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Temporal Grounding (VTG), which aims to ground target clips from videos (such as consecutive intervals or disjoint shots) according to custom language queries (e.g., sentences or words), is key for video browsing on social media. Most methods in this direction develop taskspecific models that are trained with type-specific labels, such as moment retrieval (time interval) and highlight detection (worthiness curve), which limits their abilities to generalize to various VTG tasks and labels. In this paper, we propose to Unify the diverse VTG labels and tasks, dubbed UniVTG, along three directions: Firstly, we revisit a wide range of VTG labels and tasks and define a unified formulation. Based on this, we develop data annotation schemes to create scalable pseudo supervision. Secondly, we develop an effective and flexible grounding model capable of addressing each task and making full use of each label. Lastly, thanks to the unified framework, we are able to unlock temporal grounding pretraining from large-scale diverse labels and develop stronger grounding abilities e.g., zero-shot grounding. Extensive experiments on three tasks (moment retrieval, highlight detection and video summarization) across seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed framework. The codes are available at https://github.com/showlab/UniVTG.
Abstract（参考訳）: ビデオテンポラリ・グラウンド(vtg)は、ビデオのターゲットクリップ(連続間隔や不一致ショットなど)をカスタム言語クエリ(例えば文や単語)に従ってグラウンドすることを目的としたもので、ソーシャルメディアでの動画ブラウジングの鍵となる。この方向のほとんどの手法は、モーメント検索 (time interval) やハイライト検出 (worthiness curve) のようなタイプ固有のラベルで訓練されたタスク固有モデルを開発し、様々なVTGタスクやラベルに一般化する能力を制限する。本稿では,UniVTGと呼ばれる多様なVTGラベルとタスクを3つの方向に沿って統一することを提案する。そこで我々は,スケーラブルな疑似監視を実現するためのデータアノテーションスキームを開発した。第2に,各課題に対処し,各ラベルをフル活用できる効果的で柔軟な接地モデルを開発する。最後に、unified frameworkのおかげで、大規模な多様なラベルから事前訓練された時間的接地を解き放ち、ゼロショット接地のようなより強力な接地能力を開発することができる。 7つのデータセット(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum、QFVS)にまたがる3つのタスク(モーメント検索、ハイライト検出、ビデオ要約)に関する大規模な実験は、提案フレームワークの有効性と柔軟性を示している。コードはhttps://github.com/showlab/UniVTGで入手できる。

関連論文リスト

TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [83.96715649130435]
VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文参考訳（メタデータ） (2025-08-03T10:03:58Z)
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文参考訳（メタデータ） (2024-10-01T08:27:56Z)
Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文参考訳（メタデータ） (2024-08-29T02:25:12Z)
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding [10.548950058205833]
Video Temporal Grounding (VTG)は、言語クエリを使用して特定のビデオ内のイベントタイムスタンプを正確に特定する。ビデオ大言語モデル(ビデオLLM)は、ゼロショット方式で複数のタスクを同時に処理することができる。本稿では,ビデオLLMのタイムスタンプローカライゼーション能力を向上させるモデルであるVTG-LLMを紹介する。
論文参考訳（メタデータ） (2024-05-22T06:31:42Z)
UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文参考訳（メタデータ） (2024-04-04T03:28:57Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
VLG: General Video Recognition with Web Textual Knowledge [47.3660792813967]
我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
論文参考訳（メタデータ） (2022-12-03T15:46:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。