論文の概要: Visual Answer Localization with Cross-modal Mutual Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2210.14823v3
- Date: Fri, 28 Oct 2022 08:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:38:07.836593
- Title: Visual Answer Localization with Cross-modal Mutual Knowledge Transfer
- Title(参考訳): クロスモーダル相互知識伝達による視覚的回答定位
- Authors: Yixuan Weng and Bin Li
- Abstract要約: 本稿では,知識の偏りを低減するため,モーダルな相互知識伝達スパンローカライゼーション(MutualSL)手法を提案する。
そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。
提案手法は,他の最先端技術(SOTA)手法よりも優れ,その有効性を実証する。
- 参考スコア(独自算出の注目度): 6.895321502252051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of visual answering localization (VAL) in the video is to obtain a
relevant and concise time clip from a video as the answer to the given natural
language question. Early methods are based on the interaction modelling between
video and text to predict the visual answer by the visual predictor. Later,
using the textual predictor with subtitles for the VAL proves to be more
precise. However, these existing methods still have cross-modal knowledge
deviations from visual frames or textual subtitles. In this paper, we propose a
cross-modal mutual knowledge transfer span localization (MutualSL) method to
reduce the knowledge deviation. MutualSL has both visual predictor and textual
predictor, where we expect the prediction results of these both to be
consistent, so as to promote semantic knowledge understanding between
cross-modalities. On this basis, we design a one-way dynamic loss function to
dynamically adjust the proportion of knowledge transfer. We have conducted
extensive experiments on three public datasets for evaluation. The experimental
results show that our method outperforms other competitive state-of-the-art
(SOTA) methods, demonstrating its effectiveness.
- Abstract(参考訳): ビデオ中の視覚的応答ローカライゼーション(VAL)の目的は、与えられた自然言語質問に対する答えとして、ビデオから関連性があり簡潔なタイムクリップを取得することである。
初期手法は、映像とテキスト間の相互作用をモデル化し、視覚的予測器による視覚的応答を予測する。
後に、VALの字幕付きテキスト予測器の使用はより正確であることが証明された。
しかし、これらの既存の手法は、視覚フレームやテキスト字幕からのクロスモーダル知識の逸脱をまだ持っている。
本稿では,知識の偏りを低減するために,モーダルな相互知識伝達を局所化(MutualSL)法を提案する。
MutualSLには視覚予測器とテキスト予測器の両方があり、これらの予測結果が一致し、相互モダリティ間の意味的知識理解を促進することが期待できる。
そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。
評価のための3つの公開データセットについて広範な実験を行った。
実験結果から,本手法は他のSOTA法よりも優れた性能を示し,その有効性を示した。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文 参考訳(メタデータ) (2022-11-07T05:32:12Z) - Learning to Locate Visual Answer in Video Corpus Using Question [21.88924465126168]
本稿では,ビデオコーパス視覚応答のローカライゼーション(VCVAL)という新しいタスクを導入する。
本稿では,ビデオコーパス検索と視覚応答ローカライゼーションサブタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
実験の結果,提案手法はビデオコーパス検索および視覚応答の局所化サブタスクにおいて,他の競合手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-11T13:04:59Z) - Towards Visual-Prompt Temporal Answering Grounding in Medical
Instructional Video [21.88924465126168]
ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から導かれる新しいタスクである。
既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。
本稿では,事前学習言語モデル(PLM)におけるテキストスパンのローカライゼーションを視覚強調機能付きで強化するVPTSL法を提案する。
論文 参考訳(メタデータ) (2022-03-13T14:42:53Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。