論文の概要: Visual Answer Localization with Cross-modal Mutual Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2210.14823v3
- Date: Fri, 28 Oct 2022 08:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:38:07.836593
- Title: Visual Answer Localization with Cross-modal Mutual Knowledge Transfer
- Title(参考訳): クロスモーダル相互知識伝達による視覚的回答定位
- Authors: Yixuan Weng and Bin Li
- Abstract要約: 本稿では,知識の偏りを低減するため,モーダルな相互知識伝達スパンローカライゼーション(MutualSL)手法を提案する。
そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。
提案手法は,他の最先端技術(SOTA)手法よりも優れ,その有効性を実証する。
- 参考スコア(独自算出の注目度): 6.895321502252051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of visual answering localization (VAL) in the video is to obtain a
relevant and concise time clip from a video as the answer to the given natural
language question. Early methods are based on the interaction modelling between
video and text to predict the visual answer by the visual predictor. Later,
using the textual predictor with subtitles for the VAL proves to be more
precise. However, these existing methods still have cross-modal knowledge
deviations from visual frames or textual subtitles. In this paper, we propose a
cross-modal mutual knowledge transfer span localization (MutualSL) method to
reduce the knowledge deviation. MutualSL has both visual predictor and textual
predictor, where we expect the prediction results of these both to be
consistent, so as to promote semantic knowledge understanding between
cross-modalities. On this basis, we design a one-way dynamic loss function to
dynamically adjust the proportion of knowledge transfer. We have conducted
extensive experiments on three public datasets for evaluation. The experimental
results show that our method outperforms other competitive state-of-the-art
(SOTA) methods, demonstrating its effectiveness.
- Abstract(参考訳): ビデオ中の視覚的応答ローカライゼーション(VAL)の目的は、与えられた自然言語質問に対する答えとして、ビデオから関連性があり簡潔なタイムクリップを取得することである。
初期手法は、映像とテキスト間の相互作用をモデル化し、視覚的予測器による視覚的応答を予測する。
後に、VALの字幕付きテキスト予測器の使用はより正確であることが証明された。
しかし、これらの既存の手法は、視覚フレームやテキスト字幕からのクロスモーダル知識の逸脱をまだ持っている。
本稿では,知識の偏りを低減するために,モーダルな相互知識伝達を局所化(MutualSL)法を提案する。
MutualSLには視覚予測器とテキスト予測器の両方があり、これらの予測結果が一致し、相互モダリティ間の意味的知識理解を促進することが期待できる。
そこで本研究では,知識伝達の割合を動的に調整する一方向動的損失関数を設計する。
評価のための3つの公開データセットについて広範な実験を行った。
実験結果から,本手法は他のSOTA法よりも優れた性能を示し,その有効性を示した。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - On the Role of Context in Reading Time Prediction [50.87306355705826]
我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。
提案手法は,言語単位の処理作業が文脈内情報の内容のアフィン関数であることを示す素因的理論に基づいている。
論文 参考訳(メタデータ) (2024-09-12T15:52:22Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - CLOP: Video-and-Language Pre-Training with Knowledge Regularizations [43.09248976105326]
ビデオと言語による事前学習は、一般化可能な表現を学習するための有望な結果を示している。
このような表現形式を構造的知識として表現し、複数の粒度のリッチな意味論を表現する。
知識正規化を用いたCLOP(Cross-modaL knedgeOwl-enhanced Pre-training)法を提案する。
論文 参考訳(メタデータ) (2022-11-07T05:32:12Z) - Learning to Locate Visual Answer in Video Corpus Using Question [21.88924465126168]
本稿では,ビデオコーパス視覚応答のローカライゼーション(VCVAL)という新しいタスクを導入する。
本稿では,ビデオコーパス検索と視覚応答ローカライゼーションサブタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
実験の結果,提案手法はビデオコーパス検索および視覚応答の局所化サブタスクにおいて,他の競合手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-11T13:04:59Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。