論文の概要: Redundancy-aware Transformer for Video Question Answering
- arxiv url: http://arxiv.org/abs/2308.03267v1
- Date: Mon, 7 Aug 2023 03:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:32:53.806022
- Title: Redundancy-aware Transformer for Video Question Answering
- Title(参考訳): ビデオ質問応答のための冗長性認識変換器
- Authors: Yicong Li, Xun Yang, An Zhang, Chun Feng, Xiang Wang, Tat-Seng Chua
- Abstract要約: 本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
- 参考スコア(独自算出の注目度): 71.98116071679065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper identifies two kinds of redundancy in the current VideoQA
paradigm. Specifically, the current video encoders tend to holistically embed
all video clues at different granularities in a hierarchical manner, which
inevitably introduces \textit{neighboring-frame redundancy} that can overwhelm
detailed visual clues at the object level. Subsequently, prevailing
vision-language fusion designs introduce the \textit{cross-modal redundancy} by
exhaustively fusing all visual elements with question tokens without explicitly
differentiating their pairwise vision-language interactions, thus making a
pernicious impact on the answering.
To this end, we propose a novel transformer-based architecture, that aims to
model VideoQA in a redundancy-aware manner. To address the neighboring-frame
redundancy, we introduce a video encoder structure that emphasizes the
object-level change in neighboring frames, while adopting an out-of-neighboring
message-passing scheme that imposes attention only on distant frames. As for
the cross-modal redundancy, we equip our fusion module with a novel adaptive
sampling, which explicitly differentiates the vision-language interactions by
identifying a small subset of visual elements that exclusively support the
answer. Upon these advancements, we find this
\underline{R}edundancy-\underline{a}ware trans\underline{former} (RaFormer) can
achieve state-of-the-art results on multiple VideoQA benchmarks.
- Abstract(参考訳): 本稿では,現在のビデオQAパラダイムにおける2種類の冗長性について述べる。
具体的には、現在のビデオエンコーダは、階層的に異なる粒度で全てのビデオ手がかりを階層的に埋め込む傾向にあり、必然的に、オブジェクトレベルで詳細な視覚手がかりを圧倒する \textit{neighboring-frame redundancy} を導入する。
その後、一般的な視覚-言語融合設計では、すべての視覚要素を問合せトークンで徹底的に融合させ、ペアの視覚-言語相互作用を明示的に差別化せずに解答に悪影響を与える。
そこで本研究では,ビデオQAの冗長性を意識したモデリングを目的としたトランスフォーマーアーキテクチャを提案する。
隣接するフレームの冗長性に対処するため,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入し,隣接するフレームのみに注意を向けるメッセージパッシング方式を採用した。
モーダル間の冗長性については,新たな適応サンプリングを融合モジュールに装備し,解答のみをサポートする視覚要素の小さなサブセットを識別することにより,視覚言語間の相互作用を明確に区別する。
これらの進歩により、この \underline{R}edundancy-\underline{a}ware trans\underline{former} (RaFormer) は、複数の VideoQA ベンチマークで最先端の結果を得ることができる。
関連論文リスト
- DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with
Diffusion Auto-encoder [21.405442790474268]
DiffDub: Diffusion-based dubbingを提案する。
まず、編集可能なゾーンと未修正領域をデライン化するためのマスクを組み込んだ塗装により、Diffusion Auto-Encoderを製作する。
これらの課題に対処するため、我々はデータ強化や補充的アイガイダンスを含む多目的戦略を採用した。
論文 参考訳(メタデータ) (2023-11-03T09:41:51Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。