論文の概要: SBAT: Video Captioning with Sparse Boundary-Aware Transformer
- arxiv url: http://arxiv.org/abs/2007.11888v1
- Date: Thu, 23 Jul 2020 09:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:46:43.816983
- Title: SBAT: Video Captioning with Sparse Boundary-Aware Transformer
- Title(参考訳): SBAT:スパース境界対応変圧器によるビデオキャプション
- Authors: Tao Jin, Siyu Huang, Ming Chen, Yingming Li, Zhongfei Zhang
- Abstract要約: バニラ変換器は機械翻訳などの一様言語生成タスクに対して提案される。
ビデオキャプションはマルチモーダルな学習の問題であり、ビデオ機能には異なる時間ステップの間に多くの冗長性がある。
本稿では,ビデオ表現における冗長性を低減するために,スパース境界対応トランス (SBAT) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 45.40094372060204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the problem of applying the transformer structure
to video captioning effectively. The vanilla transformer is proposed for
uni-modal language generation task such as machine translation. However, video
captioning is a multimodal learning problem, and the video features have much
redundancy between different time steps. Based on these concerns, we propose a
novel method called sparse boundary-aware transformer (SBAT) to reduce the
redundancy in video representation. SBAT employs boundary-aware pooling
operation for scores from multihead attention and selects diverse features from
different scenarios. Also, SBAT includes a local correlation scheme to
compensate for the local information loss brought by sparse operation. Based on
SBAT, we further propose an aligned cross-modal encoding scheme to boost the
multimodal interaction. Experimental results on two benchmark datasets show
that SBAT outperforms the state-of-the-art methods under most of the metrics.
- Abstract(参考訳): 本稿では,映像キャプションに変換器構造を効果的に適用する問題に焦点をあてる。
バニラ変換器は機械翻訳などの一様言語生成タスクに対して提案される。
しかし、ビデオキャプションはマルチモーダル学習の問題であり、ビデオ機能は異なる時間ステップ間でかなり冗長である。
これらの懸念に基づき,映像表現の冗長性を低減するために,sparse boundary-aware transformer (sbat) と呼ばれる新しい手法を提案する。
SBATは、マルチヘッドからのスコアに境界対応プーリング操作を採用し、異なるシナリオから多様な特徴を選択する。
また、sbatは、スパース操作によってもたらされるローカル情報損失を補償するローカル相関スキームを含む。
さらに、SBATに基づいて、マルチモーダル相互作用を促進するための整列型クロスモーダル符号化方式を提案する。
2つのベンチマークデータセットの実験結果は、sbatがほとんどのメトリクスで最先端のメソッドよりも優れていることを示している。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - End-to-End Referring Video Object Segmentation with Multimodal
Transformers [0.0]
本稿では,ビデオオブジェクトのセグメンテーションタスクへの簡単なトランスフォーマーベースアプローチを提案する。
我々のフレームワークは、MTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
論文 参考訳(メタデータ) (2021-11-29T18:59:32Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Multi-channel Transformers for Multi-articulatory Sign Language
Translation [59.38247587308604]
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。
提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
論文 参考訳(メタデータ) (2020-09-01T09:10:55Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。