論文の概要: GL-RG: Global-Local Representation Granularity for Video Captioning
- arxiv url: http://arxiv.org/abs/2205.10706v1
- Date: Sun, 22 May 2022 02:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:16:25.521329
- Title: GL-RG: Global-Local Representation Granularity for Video Captioning
- Title(参考訳): gl-rg:ビデオキャプションのためのグローバル局所表現粒度
- Authors: Liqi Yan, Qifan Wang, Yiming Cui, Fuli Feng, Xiaojun Quan, Xiangyu
Zhang, Dongfang Liu
- Abstract要約: ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
- 参考スコア(独自算出の注目度): 52.56883051799501
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video captioning is a challenging task as it needs to accurately transform
visual understanding into natural language description. To date,
state-of-the-art methods inadequately model global-local representation across
video frames for caption generation, leaving plenty of room for improvement. In
this work, we approach the video captioning task from a new perspective and
propose a GL-RG framework for video captioning, namely a
\textbf{G}lobal-\textbf{L}ocal \textbf{R}epresentation \textbf{G}ranularity.
Our GL-RG demonstrates three advantages over the prior efforts: 1) we
explicitly exploit extensive visual representations from different video ranges
to improve linguistic expression; 2) we devise a novel global-local encoder to
produce rich semantic vocabulary to obtain a descriptive granularity of video
contents across frames; 3) we develop an incremental training strategy which
organizes model learning in an incremental fashion to incur an optimal
captioning behavior. Experimental results on the challenging MSR-VTT and MSVD
datasets show that our DL-RG outperforms recent state-of-the-art methods by a
significant margin. Code is available at \url{https://github.com/ylqi/GL-RG}.
- Abstract(参考訳): 映像キャプションは、視覚理解を自然言語記述に正確に変換する必要があるため、難しい課題である。
これまでのところ、最先端の手法はキャプション生成のためにビデオフレーム全体のグローバルローカル表現を不適切にモデル化しており、改善の余地は十分残されている。
本研究では,新しい視点から映像キャプションタスクにアプローチし,ビデオキャプションのためのGL-RGフレームワーク,すなわち, \textbf{G}lobal-\textbf{L}ocal \textbf{R}epresentation \textbf{G}ranularityを提案する。
私たちのGL-RGは、これまでの取り組みよりも3つの利点を示しています。
1) 異なる映像範囲からの広範な視覚表現を明示的に活用し, 言語表現を改善する。
2) フレーム間の映像コンテンツの記述的粒度を得るために, リッチなセマンティック語彙を生成する新しいグローバルなエンコーダを考案する。
3) モデル学習をインクリメンタルに整理し, キャプション行動の最適化を図るインクリメンタルトレーニング戦略を開発する。
MSR-VTTとMSVDデータセットによる実験結果から,我々のDL-RGは最近の最先端手法よりも有意差で優れていた。
コードは \url{https://github.com/ylqi/GL-RG} で入手できる。
関連論文リスト
- DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - LGDN: Language-Guided Denoising Network for Video-Language Modeling [30.99646752913056]
本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
論文 参考訳(メタデータ) (2022-09-23T03:35:59Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - ActBERT: Learning Global-Local Video-Text Representations [74.29748531654474]
本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
我々はグローバルな行動情報を活用し、言語テキストと地域オブジェクト間の相互相互作用を触媒する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
論文 参考訳(メタデータ) (2020-11-14T07:14:08Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。