論文の概要: Learning to Locate Visual Answer in Video Corpus Using Question
- arxiv url: http://arxiv.org/abs/2210.05423v1
- Date: Tue, 11 Oct 2022 13:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:00:18.574698
- Title: Learning to Locate Visual Answer in Video Corpus Using Question
- Title(参考訳): 質問を用いた映像コーパスにおける視覚的回答の探索
- Authors: Bin Li, Yixuan Weng, Bin Sun and Shutao Li
- Abstract要約: ビデオコーパス視覚応答ローカライゼーション(VCVAL)という新しいタスクを導入する。
それは、自然言語の質問を使って、未修正で未分割の指導ビデオの大規模なコレクションに視覚的な答えを見つけることを目的としている。
本稿では,ビデオコーパス検索と視覚応答のローカライゼーションタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
- 参考スコア(独自算出の注目度): 21.88924465126168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel task, named video corpus visual answer localization
(VCVAL), which aims to locate the visual answer in a large collection of
untrimmed, unsegmented instructional videos using a natural language question.
This task requires a range of skills - the interaction between vision and
language, video retrieval, passage comprehension, and visual answer
localization. To solve these, we propose a cross-modal contrastive global-span
(CCGS) method for the VCVAL, jointly training the video corpus retrieval and
visual answer localization tasks. More precisely, we enhance the video
question-answer semantic by adding element-wise visual information into the
pre-trained language model, and designing a novel global-span predictor through
fusion information to locate the visual answer point. The Global-span
contrastive learning is adopted to differentiate the span point in the positive
and negative samples with the global-span matrix. We have reconstructed a new
dataset named MedVidCQA and benchmarked the VCVAL task, where the proposed
method achieves state-of-the-art (SOTA) both in the video corpus retrieval and
visual answer localization tasks. Most importantly, we pave a new path for
understanding the instructional videos, performing detailed analyses on
extensive experiments, which ushers in further research.
- Abstract(参考訳): そこで本研究では,自然言語質問を用いた無意味・無意味な教示ビデオの膨大なコレクションにおける視覚的回答の探索を目的とした,ビデオコーパスビジュアル回答ローカライズ(vcval)という新しいタスクを提案する。
このタスクには、視覚と言語、ビデオ検索、通訳理解、視覚応答のローカライゼーションといった様々なスキルが必要です。
そこで本研究では,ビデオコーパス検索と視覚応答のローカライゼーションタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
より正確には、事前学習した言語モデルに要素毎の視覚情報を付加し、融合情報を用いて新たなグローバルスパン予測器を設計して、映像の質問・回答意味を高める。
グローバル・スパン・コントラスト学習は, 正・負のサンプルをグローバル・スパン・マトリックスと区別するために採用されている。
我々はMedVidCQAという新しいデータセットを再構築し、VCVALタスクをベンチマークし、提案手法はビデオコーパス検索と視覚応答ローカライゼーションタスクの両方において最先端(SOTA)を達成する。
最も重要なことは、教示ビデオを理解するための新しい道を開き、広範な実験に関する詳細な分析を行い、さらなる研究に役立てることである。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。