論文の概要: Video Question Answering Using CLIP-Guided Visual-Text Attention
- arxiv url: http://arxiv.org/abs/2303.03131v1
- Date: Mon, 6 Mar 2023 13:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:54:56.083089
- Title: Video Question Answering Using CLIP-Guided Visual-Text Attention
- Title(参考訳): CLIP-Guided Visual-Text Attention を用いたビデオ質問応答
- Authors: Shuhong Ye (1), Weikai Kong (1), Chenglin Yao (1), Jianfeng Ren (1),
Xudong Jiang (2) ((1) School of Computer Science, University of Nottingham
Ningbo China, (2) School of Electrical & Electronic Engineering, Nanyang
Technological University)
- Abstract要約: Video Question Answering(ビデオQA)におけるビデオとテキストのクロスモーダル学習の役割
本稿では,多くの汎用言語と画像のペアで訓練されたコントラスト言語-画像事前学習(CLIP)を利用する視覚テキストアテンション機構を提案する。
提案手法はMSVD-QAおよびMSRVTT-QAデータセット上で評価され,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal learning of video and text plays a key role in Video Question
Answering (VideoQA). In this paper, we propose a visual-text attention
mechanism to utilize the Contrastive Language-Image Pre-training (CLIP) trained
on lots of general domain language-image pairs to guide the cross-modal
learning for VideoQA. Specifically, we first extract video features using a
TimeSformer and text features using a BERT from the target application domain,
and utilize CLIP to extract a pair of visual-text features from the
general-knowledge domain through the domain-specific learning. We then propose
a Cross-domain Learning to extract the attention information between visual and
linguistic features across the target domain and general domain. The set of
CLIP-guided visual-text features are integrated to predict the answer. The
proposed method is evaluated on MSVD-QA and MSRVTT-QA datasets, and outperforms
state-of-the-art methods.
- Abstract(参考訳): ビデオ質問回答(Video Question Answering, VideoQA)では,ビデオとテキストの相互学習が重要な役割を果たす。
本稿では,ビデオQAのクロスモーダル学習を指導するために,多くのドメイン言語と画像のペアで訓練されたコントラスト言語-画像事前学習(CLIP)を利用する視覚テキストアテンション機構を提案する。
具体的には,まず,対象のアプリケーションドメインから BERT を用いて TimeSformer とテキスト機能を用いてビデオ特徴を抽出し,CLIP を用いて一般知識ドメインから一対の視覚テキスト特徴をドメイン固有の学習を通じて抽出する。
次に,対象領域と一般領域にまたがる視覚的特徴と言語的特徴の注意情報を抽出するクロスドメイン学習を提案する。
CLIPで誘導される視覚テキスト機能は、その答えを予測するために統合されている。
提案手法はMSVD-QAおよびMSRVTT-QAデータセット上で評価され,最先端の手法よりも優れている。
関連論文リスト
- 3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。
まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。
第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文 参考訳(メタデータ) (2024-06-07T11:15:03Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - A Review of Deep Learning for Video Captioning [111.1557921247882]
ビデオキャプション(VC)は、素早く動き、学際的な研究分野である。
この調査では、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵対的ネットワーク、高密度ビデオキャプション(DVC)など、ディープラーニングベースのVCをカバーする。
論文 参考訳(メタデータ) (2023-04-22T15:30:54Z) - Learning video embedding space with Natural Language Supervision [1.6822770693792823]
本稿では,映像埋め込み空間を自然言語にマッピングする新しい手法を提案する。
本稿では,まず,事前学習したCNNを用いてビデオの各フレームから視覚的特徴を抽出し,次にCLIPモデルを用いて映像領域の視覚的特徴を符号化する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-25T23:24:57Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Learning to Locate Visual Answer in Video Corpus Using Question [21.88924465126168]
本稿では,ビデオコーパス視覚応答のローカライゼーション(VCVAL)という新しいタスクを導入する。
本稿では,ビデオコーパス検索と視覚応答ローカライゼーションサブタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
実験の結果,提案手法はビデオコーパス検索および視覚応答の局所化サブタスクにおいて,他の競合手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-11T13:04:59Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Towards Visual-Prompt Temporal Answering Grounding in Medical
Instructional Video [21.88924465126168]
ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から導かれる新しいタスクである。
既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。
本稿では,事前学習言語モデル(PLM)におけるテキストスパンのローカライゼーションを視覚強調機能付きで強化するVPTSL法を提案する。
論文 参考訳(メタデータ) (2022-03-13T14:42:53Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。