論文の概要: A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal
Transformer
- arxiv url: http://arxiv.org/abs/2005.08271v2
- Date: Tue, 11 Aug 2020 09:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:07:04.434395
- Title: A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal
Transformer
- Title(参考訳): オーディオ・ビジュアル・キュースの使い勝手:バイモーダル・トランスを用いた高精細ビデオ・キャプション
- Authors: Vladimir Iashin and Esa Rahtu
- Abstract要約: 既存の手法は主に視覚的特徴のみを活用しながら、音声トラックを完全に無視することでこの課題に対処する。
バイモーダル入力のためのトランスフォーマーアーキテクチャを一般化したバイモーダル変換器を提案する。
本稿では,高密度ビデオキャプションタスクにおける音声と視覚のモーダル性を考慮したモデルの有効性を示すが,このモジュールはシーケンス・ツー・シーケンスタスクにおいて任意の2つのモーダル性を消化することができる。
- 参考スコア(独自算出の注目度): 18.592384822257948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense video captioning aims to localize and describe important events in
untrimmed videos. Existing methods mainly tackle this task by exploiting only
visual features, while completely neglecting the audio track. Only a few prior
works have utilized both modalities, yet they show poor results or demonstrate
the importance on a dataset with a specific domain. In this paper, we introduce
Bi-modal Transformer which generalizes the Transformer architecture for a
bi-modal input. We show the effectiveness of the proposed model with audio and
visual modalities on the dense video captioning task, yet the module is capable
of digesting any two modalities in a sequence-to-sequence task. We also show
that the pre-trained bi-modal encoder as a part of the bi-modal transformer can
be used as a feature extractor for a simple proposal generation module. The
performance is demonstrated on a challenging ActivityNet Captions dataset where
our model achieves outstanding performance. The code is available:
v-iashin.github.io/bmt
- Abstract(参考訳): 濃密なビデオキャプションは、未撮影の動画で重要なイベントをローカライズし、記述することを目的としている。
既存の手法は主に視覚的特徴のみを活用しながら、音声トラックを完全に無視することでこの課題に対処する。
両方のモダリティを利用したのはほんの少し前の作業だが、結果が悪かったり、特定のドメインを持つデータセットの重要性を示したりしている。
本稿では,バイモーダル入力のためのトランスフォーマーアーキテクチャを一般化したバイモーダル変換器を提案する。
提案手法は,映像キャプションタスクにおける音声と視覚のモダリティを有するモデルの有効性を示すが,このモジュールはシーケンシャル・トゥ・シーケンスタスクにおいて任意の2つのモダリティを消化することができる。
また,バイモーダル変換器の一部として事前学習したバイモーダルエンコーダを,単純な提案生成モジュールの機能抽出器として使用できることを示す。
この性能は、我々のモデルが優れたパフォーマンスを達成するための挑戦的なActivityNet Captionsデータセットで実証されます。
コードはv-iashin.github.io/bmt
関連論文リスト
- Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。