論文の概要: Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer
- arxiv url: http://arxiv.org/abs/2302.02136v1
- Date: Sat, 4 Feb 2023 09:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:07:20.135212
- Title: Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer
- Title(参考訳): ピラミッド型マルチモーダル変圧器を用いた効率的なエンドツーエンドビデオ質問応答
- Authors: Min Peng, Chongyang Wang, Yu Shi, Xiang-Dong Zhou
- Abstract要約: ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
- 参考スコア(独自算出の注目度): 13.71165050314854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new method for end-to-end Video Question Answering
(VideoQA), aside from the current popularity of using large-scale pre-training
with huge feature extractors. We achieve this with a pyramidal multimodal
transformer (PMT) model, which simply incorporates a learnable word embedding
layer, a few convolutional and transformer layers. We use the anisotropic
pyramid to fulfill video-language interactions across different spatio-temporal
scales. In addition to the canonical pyramid, which includes both bottom-up and
top-down pathways with lateral connections, novel strategies are proposed to
decompose the visual feature stream into spatial and temporal sub-streams at
different scales and implement their interactions with the linguistic semantics
while preserving the integrity of local and global semantics. We demonstrate
better or on-par performances with high computational efficiency against
state-of-the-art methods on five VideoQA benchmarks. Our ablation study shows
the scalability of our model that achieves competitive results for
text-to-video retrieval by leveraging feature extractors with reusable
pre-trained weights, and also the effectiveness of the pyramid.
- Abstract(参考訳): 本稿では,大量の特徴抽出器を用いた大規模事前学習が現在普及しているビデオQA(End-to-end Video Question Answering)を提案する。
ピラミッド型マルチモーダルトランス (PMT) モデルでこれを実現し、学習可能な単語埋め込み層といくつかの畳み込み層とトランスフォーマー層を組み込む。
異方性ピラミッドを用いて、異なる時空間スケールにわたるビデオ言語相互作用を実現する。
左右の接続を持つボトムアップ経路とトップダウン経路を含む標準ピラミッドに加えて、異なるスケールで視覚特徴ストリームを空間的・時間的サブストリームに分解し、局所的・グローバル的意味論の整合性を保ちながら言語意味論との相互作用を実装する新しい戦略が提案されている。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
本研究は,再利用可能な事前学習重み付き特徴抽出器とピラミッドの有効性を活かし,テキスト対ビデオ検索の競争結果を得るモデルのスケーラビリティを示す。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Temporal Pyramid Transformer with Multimodal Interaction for Video
Question Answering [13.805714443766236]
ビデオ質問応答(VideoQA)は、視覚的理解と自然言語理解のマルチモーダルな組み合わせを考えると困難である。
本稿では,ビデオQAのためのマルチモーダルインタラクションを備えた時間ピラミッド変換器(TPT)モデルを提案する。
論文 参考訳(メタデータ) (2021-09-10T08:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。