論文の概要: Collaborative Three-Stream Transformers for Video Captioning
- arxiv url: http://arxiv.org/abs/2309.09611v1
- Date: Mon, 18 Sep 2023 09:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:23:40.538693
- Title: Collaborative Three-Stream Transformers for Video Captioning
- Title(参考訳): ビデオキャプション用コラボレーティブ3ストリームトランス
- Authors: Hao Wang, Libo Zhang, Heng Fan, Tiejian Luo
- Abstract要約: 我々は,COST(Collaborative Three-Stream Transformer)と呼ばれる新しいフレームワークを設計し,これら3つの部分を個別にモデル化し,表現性を向上する。
COSTは3つのトランスフォーマーによって形成され、ビデオとテキスト間の空間時間領域における異なる粒度の視覚的・言語的相互作用を利用する。
変圧器の3つの分岐によってモデル化された相互作用を整列させるため, 変圧器の3つの分岐が相互にサポートし, 異なる粒度の識別的意味情報を利用してキャプションの正確な予測を行う。
- 参考スコア(独自算出の注目度): 23.889653636822207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the most critical components in a sentence, subject, predicate and object
require special attention in the video captioning task. To implement this idea,
we design a novel framework, named COllaborative three-Stream Transformers
(COST), to model the three parts separately and complement each other for
better representation. Specifically, COST is formed by three branches of
transformers to exploit the visual-linguistic interactions of different
granularities in spatial-temporal domain between videos and text, detected
objects and text, and actions and text. Meanwhile, we propose a
cross-granularity attention module to align the interactions modeled by the
three branches of transformers, then the three branches of transformers can
support each other to exploit the most discriminative semantic information of
different granularities for accurate predictions of captions. The whole model
is trained in an end-to-end fashion. Extensive experiments conducted on three
large-scale challenging datasets, i.e., YouCookII, ActivityNet Captions and
MSVD, demonstrate that the proposed method performs favorably against the
state-of-the-art methods.
- Abstract(参考訳): 文の最も重要な要素として、主語、述語、対象はビデオキャプションタスクにおいて特別な注意を要する。
このアイデアを実現するために,我々は,3つの部品を別々にモデル化し,相互補完し,よりよい表現のために相互補完する,コラボレーティブ・スリー・ストリーム・トランスフォーマー(コスト)と呼ばれる新しいフレームワークを設計した。
特に、COSTは、ビデオとテキスト、検出されたオブジェクトとテキスト、およびアクションとテキストの間の空間的時間的領域における異なる粒度の視覚的・言語的相互作用を利用する3つのトランスフォーマーによって形成される。
一方,トランスフォーマの3つの枝がモデル化した相互作用を整合させるクロスグラニュラリティアテンションモジュールを提案し,トランスフォーマの3つの枝が相互にサポートし,キャプションの正確な予測のために異なる粒度の最も識別的な意味情報を利用する。
モデル全体がエンドツーエンドでトレーニングされる。
大規模挑戦型データセット(youcookii, activitynet captions, msvd)を用いた大規模実験により,提案手法が最先端手法に対して好適に機能することを実証した。
関連論文リスト
- VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。