論文の概要: Redundancy-aware Transformer for Video Question Answering
- arxiv url: http://arxiv.org/abs/2308.03267v1
- Date: Mon, 7 Aug 2023 03:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:32:53.806022
- Title: Redundancy-aware Transformer for Video Question Answering
- Title(参考訳): ビデオ質問応答のための冗長性認識変換器
- Authors: Yicong Li, Xun Yang, An Zhang, Chun Feng, Xiang Wang, Tat-Seng Chua
- Abstract要約: 本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
- 参考スコア(独自算出の注目度): 71.98116071679065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper identifies two kinds of redundancy in the current VideoQA
paradigm. Specifically, the current video encoders tend to holistically embed
all video clues at different granularities in a hierarchical manner, which
inevitably introduces \textit{neighboring-frame redundancy} that can overwhelm
detailed visual clues at the object level. Subsequently, prevailing
vision-language fusion designs introduce the \textit{cross-modal redundancy} by
exhaustively fusing all visual elements with question tokens without explicitly
differentiating their pairwise vision-language interactions, thus making a
pernicious impact on the answering.
To this end, we propose a novel transformer-based architecture, that aims to
model VideoQA in a redundancy-aware manner. To address the neighboring-frame
redundancy, we introduce a video encoder structure that emphasizes the
object-level change in neighboring frames, while adopting an out-of-neighboring
message-passing scheme that imposes attention only on distant frames. As for
the cross-modal redundancy, we equip our fusion module with a novel adaptive
sampling, which explicitly differentiates the vision-language interactions by
identifying a small subset of visual elements that exclusively support the
answer. Upon these advancements, we find this
\underline{R}edundancy-\underline{a}ware trans\underline{former} (RaFormer) can
achieve state-of-the-art results on multiple VideoQA benchmarks.
- Abstract(参考訳): 本稿では,現在のビデオQAパラダイムにおける2種類の冗長性について述べる。
具体的には、現在のビデオエンコーダは、階層的に異なる粒度で全てのビデオ手がかりを階層的に埋め込む傾向にあり、必然的に、オブジェクトレベルで詳細な視覚手がかりを圧倒する \textit{neighboring-frame redundancy} を導入する。
その後、一般的な視覚-言語融合設計では、すべての視覚要素を問合せトークンで徹底的に融合させ、ペアの視覚-言語相互作用を明示的に差別化せずに解答に悪影響を与える。
そこで本研究では,ビデオQAの冗長性を意識したモデリングを目的としたトランスフォーマーアーキテクチャを提案する。
隣接するフレームの冗長性に対処するため,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入し,隣接するフレームのみに注意を向けるメッセージパッシング方式を採用した。
モーダル間の冗長性については,新たな適応サンプリングを融合モジュールに装備し,解答のみをサポートする視覚要素の小さなサブセットを識別することにより,視覚言語間の相互作用を明確に区別する。
これらの進歩により、この \underline{R}edundancy-\underline{a}ware trans\underline{former} (RaFormer) は、複数の VideoQA ベンチマークで最先端の結果を得ることができる。
関連論文リスト
- RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。
LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。
追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-12T12:39:07Z) - DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with
Diffusion Auto-encoder [21.405442790474268]
DiffDub: Diffusion-based dubbingを提案する。
まず、編集可能なゾーンと未修正領域をデライン化するためのマスクを組み込んだ塗装により、Diffusion Auto-Encoderを製作する。
これらの課題に対処するため、我々はデータ強化や補充的アイガイダンスを含む多目的戦略を採用した。
論文 参考訳(メタデータ) (2023-11-03T09:41:51Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。