論文の概要: Visual Commonsense-aware Representation Network for Video Captioning
- arxiv url: http://arxiv.org/abs/2211.09469v1
- Date: Thu, 17 Nov 2022 11:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:30:57.575162
- Title: Visual Commonsense-aware Representation Network for Video Captioning
- Title(参考訳): ビデオキャプションのためのビジュアルコモンセンス対応表現ネットワーク
- Authors: Pengpeng Zeng, Haonan Zhang, Lianli Gao, Xiangpeng Li, Jin Qian, Heng
Tao Shen
- Abstract要約: ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 84.67432867555044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating consecutive descriptions for videos, i.e., Video Captioning,
requires taking full advantage of visual representation along with the
generation process. Existing video captioning methods focus on making an
exploration of spatial-temporal representations and their relationships to
produce inferences. However, such methods only exploit the superficial
association contained in the video itself without considering the intrinsic
visual commonsense knowledge that existed in a video dataset, which may hinder
their capabilities of knowledge cognitive to reason accurate descriptions. To
address this problem, we propose a simple yet effective method, called Visual
Commonsense-aware Representation Network (VCRN), for video captioning.
Specifically, we construct a Video Dictionary, a plug-and-play component,
obtained by clustering all video features from the total dataset into multiple
clustered centers without additional annotation. Each center implicitly
represents a visual commonsense concept in the video domain, which is utilized
in our proposed Visual Concept Selection (VCS) to obtain a video-related
concept feature. Next, a Conceptual Integration Generation (CIG) is proposed to
enhance the caption generation. Extensive experiments on three publicly video
captioning benchmarks: MSVD, MSR-VTT, and VATEX, demonstrate that our method
reaches state-of-the-art performance, indicating the effectiveness of our
method. In addition, our approach is integrated into the existing method of
video question answering and improves this performance, further showing the
generalization of our method. Source code has been released at
https://github.com/zchoi/VCRN.
- Abstract(参考訳): ビデオの連続的な記述、すなわちビデオキャプションを生成するには、生成プロセスと共に視覚的表現を最大限に活用する必要がある。
既存のビデオキャプション手法は、空間-時間表現とその関係を探索して推論を作成することに焦点を当てている。
しかし、そのような手法は、ビデオデータセットに存在する内在的な視覚常識知識を考慮せずに、ビデオ自体に含まれる表面的関連のみを活用し、正確な説明を推論する知識認知能力を妨げる可能性がある。
この問題に対処するために,ビデオキャプションのためのVisual Commonsense-aware Representation Network (VCRN) という,シンプルで効果的な手法を提案する。
具体的には,全データから全動画機能を,追加のアノテーションを伴わずに複数のクラスタ化センタにクラスタリングした,プラグイン・アンド・プレイコンポーネントであるビデオ辞書を構築する。
各中心はビデオ領域における視覚的コモンセンスの概念を暗黙的に表現し,提案した視覚概念選択(VCS)を用いて映像関連概念機能を得る。
次に、キャプション生成を強化するために概念統合生成(CIG)を提案する。
MSVD, MSR-VTT, VATEXの3つの公開ビデオキャプションベンチマークによる大規模な実験により, 提案手法が最先端の性能に達することを示すとともに, 本手法の有効性を示した。
また,本手法は既存の映像質問応答手法に統合され,その性能を向上し,より一般化した手法である。
ソースコードはhttps://github.com/zchoi/VCRNで公開されている。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Learning video embedding space with Natural Language Supervision [1.6822770693792823]
本稿では,映像埋め込み空間を自然言語にマッピングする新しい手法を提案する。
本稿では,まず,事前学習したCNNを用いてビデオの各フレームから視覚的特徴を抽出し,次にCLIPモデルを用いて映像領域の視覚的特徴を符号化する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-25T23:24:57Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。