Fugu-MT 論文翻訳(概要): Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer

論文の概要: Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer

arxiv url: http://arxiv.org/abs/2302.02136v1
Date: Sat, 4 Feb 2023 09:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 20:07:20.135212
Title: Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer
Title（参考訳）: ピラミッド型マルチモーダル変圧器を用いた効率的なエンドツーエンドビデオ質問応答
Authors: Min Peng, Chongyang Wang, Yu Shi, Xiang-Dong Zhou
Abstract要約: ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
参考スコア（独自算出の注目度）: 13.71165050314854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a new method for end-to-end Video Question Answering (VideoQA), aside from the current popularity of using large-scale pre-training with huge feature extractors. We achieve this with a pyramidal multimodal transformer (PMT) model, which simply incorporates a learnable word embedding layer, a few convolutional and transformer layers. We use the anisotropic pyramid to fulfill video-language interactions across different spatio-temporal scales. In addition to the canonical pyramid, which includes both bottom-up and top-down pathways with lateral connections, novel strategies are proposed to decompose the visual feature stream into spatial and temporal sub-streams at different scales and implement their interactions with the linguistic semantics while preserving the integrity of local and global semantics. We demonstrate better or on-par performances with high computational efficiency against state-of-the-art methods on five VideoQA benchmarks. Our ablation study shows the scalability of our model that achieves competitive results for text-to-video retrieval by leveraging feature extractors with reusable pre-trained weights, and also the effectiveness of the pyramid.
Abstract（参考訳）: 本稿では,大量の特徴抽出器を用いた大規模事前学習が現在普及しているビデオQA(End-to-end Video Question Answering)を提案する。ピラミッド型マルチモーダルトランス (PMT) モデルでこれを実現し、学習可能な単語埋め込み層といくつかの畳み込み層とトランスフォーマー層を組み込む。異方性ピラミッドを用いて、異なる時空間スケールにわたるビデオ言語相互作用を実現する。左右の接続を持つボトムアップ経路とトップダウン経路を含む標準ピラミッドに加えて、異なるスケールで視覚特徴ストリームを空間的・時間的サブストリームに分解し、局所的・グローバル的意味論の整合性を保ちながら言語意味論との相互作用を実装する新しい戦略が提案されている。我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。本研究は,再利用可能な事前学習重み付き特徴抽出器とピラミッドの有効性を活かし,テキスト対ビデオ検索の競争結果を得るモデルのスケーラビリティを示す。

関連論文リスト

LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文参考訳（メタデータ） (2024-10-08T12:10:37Z)
Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文参考訳（メタデータ） (2024-04-23T11:41:19Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2023-08-28T08:20:30Z)
EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文参考訳（メタデータ） (2023-03-15T20:33:50Z)
Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。アクションコンテキストを要約することで、言語の表現力を利用する。我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文参考訳（メタデータ） (2023-01-22T21:30:12Z)
Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文参考訳（メタデータ） (2022-08-31T14:16:56Z)
TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文参考訳（メタデータ） (2022-03-30T16:31:49Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文参考訳（メタデータ） (2022-03-14T17:06:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。