論文の概要: Towards Visual-Prompt Temporal Answering Grounding in Medical
Instructional Video
- arxiv url: http://arxiv.org/abs/2203.06667v2
- Date: Tue, 15 Mar 2022 07:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 10:43:17.050942
- Title: Towards Visual-Prompt Temporal Answering Grounding in Medical
Instructional Video
- Title(参考訳): 医科教育ビデオにおける視覚プロンプト時間解答接地に向けて
- Authors: Bin Li, Yixuan Weng, Bin Sun and Shutao Li
- Abstract要約: ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から導かれる新しいタスクである。
既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。
本稿では,事前学習言語モデル(PLM)におけるテキストスパンのローカライゼーションを視覚強調機能付きで強化するVPTSL法を提案する。
- 参考スコア(独自算出の注目度): 21.88924465126168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The temporal answering grounding in the video (TAGV) is a new task naturally
deriving from temporal sentence grounding in the video (TSGV). Given an
untrimmed video and a text question, this task aims at locating the matching
span from the video that can semantically answer the question. Existing methods
tend to formulate the TAGV task with a visual span-based question answering
(QA) approach by matching the visual frame span queried by the text question.
However, due to the weak correlations and huge gaps in semantics in features
between the textual question and visual answer, existing methods adopting
visual span predictor fail to perform well in the TAGV task. In this work, we
propose a visual-prompt text span localizing (VPTSL) method, which enhances the
text span localization in the pre-trained language model (PLM) with the visual
highlight features. Specifically, the context query attention is utilized to
perform cross-modal modeling between the textual and visual features. Then, the
highlight features are obtained through the highlight module with a linear
layer to provide the visual prompt. To alleviate the differences in semantics
and correlations between textual and visual features, we design the text span
predictor by encoding the question, the subtitles, and the visual prompt in the
PLM. As a result, the TAGV task is formulated to predict the span of subtitles
matching the answering frame timeline. Extensive experiments on the medical
instructional dataset, namely MedVidQA, show the proposed VPTSL outperforms
other state-of-the-art methods, which demonstrates the effectiveness of visual
prompt and the text span predictor.
- Abstract(参考訳): ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から自然に導出される新しいタスクである。
未解決のビデオとテキストの質問を考えると、このタスクは、意味的に質問に答えられるビデオからマッチングスパンを見つけることを目的としています。
既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。
しかし,テキスト質問と視覚応答の特徴のセマンティクスの弱い相関や大きなギャップのため,既存の視覚的スパン予測手法はTAGVタスクではうまく機能しない。
本稿では,事前学習型言語モデル (plm) におけるテキストスパンのローカライズを視覚強調機能で強化する,vptsl(visual-prompt text span localizing)法を提案する。
具体的には、コンテキストクエリアテンションを用いて、テキスト特徴と視覚的特徴との間のクロスモーダルモデリングを行う。
次に、線状層を有するハイライトモジュールを介してハイライト機能を取得し、ビジュアルプロンプトを提供する。
テキストの特徴と視覚的特徴のセマンティクスと相関を緩和するために,PLMにおける疑問,字幕,視覚的プロンプトを符号化してテキストスパン予測器を設計する。
その結果、TAGVタスクは、応答フレームタイムラインに一致するサブタイトルのスパンを予測するために定式化される。
MedVidQAと呼ばれる医療指導データセットに関する大規模な実験では、提案されたVPTSLは他の最先端の手法よりも優れており、視覚的プロンプトとテキストスパン予測器の有効性を示している。
関連論文リスト
- VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Video Question Answering Using CLIP-Guided Visual-Text Attention [17.43377106246301]
Video Question Answering(ビデオQA)におけるビデオとテキストのクロスモーダル学習の役割
本稿では,多くの汎用言語と画像のペアで訓練されたコントラスト言語-画像事前学習(CLIP)を利用する視覚テキストアテンション機構を提案する。
提案手法はMSVD-QAおよびMSRVTT-QAデータセット上で評価され,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-06T13:49:15Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Learning to Locate Visual Answer in Video Corpus Using Question [21.88924465126168]
本稿では,ビデオコーパス視覚応答のローカライゼーション(VCVAL)という新しいタスクを導入する。
本稿では,ビデオコーパス検索と視覚応答ローカライゼーションサブタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
実験の結果,提案手法はビデオコーパス検索および視覚応答の局所化サブタスクにおいて,他の競合手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-11T13:04:59Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。