論文の概要: STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training
- arxiv url: http://arxiv.org/abs/2302.09736v2
- Date: Wed, 24 May 2023 01:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:04:10.056094
- Title: STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training
- Title(参考訳): STOA-VLP:ビデオ言語事前学習のためのオブジェクトとアクションの空間時間モデリング
- Authors: Weihong Zhong, Mao Zheng, Duyu Tang, Xuan Luo, Heng Gong, Xiaocheng
Feng, Bing Qin
- Abstract要約: 本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
- 参考スコア(独自算出の注目度): 30.16501510589718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large-scale video-language pre-training models, which usually build
a global alignment between the video and the text, have achieved remarkable
progress on various downstream tasks, the idea of adopting fine-grained
information during the pre-training stage is not well explored. In this work,
we propose STOA-VLP, a pre-training framework that jointly models object and
action information across spatial and temporal dimensions. More specifically,
the model regards object trajectories across frames and multiple action
features from the video as fine-grained features. Besides, We design two
auxiliary tasks to better incorporate both kinds of information into the
pre-training process of the video-language model. The first is the dynamic
object-text alignment task, which builds a better connection between object
trajectories and the relevant noun tokens. The second is the spatial-temporal
action set prediction, which guides the model to generate consistent action
features by predicting actions found in the text. Extensive experiments on
three downstream tasks (video captioning, text-video retrieval, and video
question answering) demonstrate the effectiveness of our proposed STOA-VLP
(e.g. 3.7 Rouge-L improvements on MSR-VTT video captioning benchmark, 2.9%
accuracy improvements on MSVD video question answering benchmark, compared to
previous approaches).
- Abstract(参考訳): 映像とテキストのグローバルアライメントを構築する大規模ビデオ言語事前学習モデルは,下流の様々なタスクにおいて著しい進歩を遂げてきたが,事前学習段階においてきめ細かい情報を導入するという考え方は十分に検討されていない。
本稿では,空間的および時間的次元にまたがるオブジェクト情報とアクション情報を協調的にモデル化する事前学習フレームワークであるstaa-vlpを提案する。
より具体的には、このモデルはフレームをまたいだオブジェクトの軌跡と、ビデオからの複数のアクション特徴をきめ細かい特徴として捉えている。
さらに,ビデオ言語モデルの事前学習プロセスに両情報をよりうまく組み込むための2つの補助タスクを設計する。
ひとつは動的オブジェクトテキストアライメントタスクで、オブジェクトのトラジェクタと関連する名詞トークンとの間のより良い接続を構築する。
2つ目は時空間のアクションセットの予測であり、これはテキストにあるアクションを予測することによって一貫したアクション特徴を生成するためにモデルを導く。
3つの下流タスク(動画キャプション、テキスト-ビデオ検索、ビデオ質問応答)に対する大規模な実験は、提案したSTOA-VLPの有効性を示している(例えば、MSR-VTTビデオキャプションベンチマークの3.7ルージュ-L、MSVDビデオ質問応答ベンチマークの2.9%の精度改善)。
関連論文リスト
- Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。