論文の概要: Multi-Scale Temporal Difference Transformer for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2406.16111v1
- Date: Sun, 23 Jun 2024 13:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:54:26.453884
- Title: Multi-Scale Temporal Difference Transformer for Video-Text Retrieval
- Title(参考訳): ビデオテキスト検索のためのマルチスケール時間差変換器
- Authors: Ni Wang, Dongliang Liao, Xing Xu,
- Abstract要約: マルチスケール時間差変圧器(MSTDT)という変圧器変圧器を提案する。
MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。
提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。
- 参考スコア(独自算出の注目度): 10.509598789325782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, in the field of video-text retrieval, there are many transformer-based methods. Most of them usually stack frame features and regrade frames as tokens, then use transformers for video temporal modeling. However, they commonly neglect the inferior ability of the transformer modeling local temporal information. To tackle this problem, we propose a transformer variant named Multi-Scale Temporal Difference Transformer (MSTDT). MSTDT mainly addresses the defects of the traditional transformer which has limited ability to capture local temporal information. Besides, in order to better model the detailed dynamic information, we make use of the difference feature between frames, which practically reflects the dynamic movement of a video. We extract the inter-frame difference feature and integrate the difference and frame feature by the multi-scale temporal transformer. In general, our proposed MSTDT consists of a short-term multi-scale temporal difference transformer and a long-term temporal transformer. The former focuses on modeling local temporal information, the latter aims at modeling global temporal information. At last, we propose a new loss to narrow the distance of similar samples. Extensive experiments show that backbone, such as CLIP, with MSTDT has attained a new state-of-the-art result.
- Abstract(参考訳): 現在、ビデオテキスト検索の分野では、多くのトランスフォーマーベースの方法が存在する。
多くの場合、フレームの特徴を積み重ね、トークンとしてフレームを再グレードし、ビデオの時間的モデリングにトランスフォーマーを使用する。
しかし、彼らは局所的時間情報をモデル化するトランスフォーマーの劣る能力を無視している。
そこで本研究では,MSTDT(Multi-Scale Temporal Difference Transformer)と呼ばれる変圧器変圧器を提案する。
MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。
また,より詳細なダイナミックな情報をモデル化するために,映像のダイナミックな動きを実際に反映するフレーム間の差分特徴を利用する。
フレーム間差分特徴を抽出し、マルチスケールの時間変換器による差分特徴とフレーム特徴を統合する。
提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。
前者は局所時間情報をモデル化することに焦点を当て、後者はグローバル時間情報をモデル化することを目的としている。
最終的に、類似したサンプルの距離を狭めるために、新しい損失を提案する。
大規模な実験は、CLIPのようなMSTDTによるバックボーンが、新しい最先端の結果を得たことを示している。
関連論文リスト
- Multi-resolution Time-Series Transformer for Long-term Forecasting [24.47302799009906]
様々な時間パターンを異なる解像度で同時モデリングするための新しいフレームワークMTST(Multi- resolution Time-Series Transformer)を提案する。
多くの既存の時系列変換器とは対照的に、異なるスケールで周期成分を抽出するのに適する相対的な位置符号化を用いる。
論文 参考訳(メタデータ) (2023-11-07T17:18:52Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Towards Robust Video Instance Segmentation with Temporal-Aware
Transformer [12.81807735850422]
本稿では,エンコーダとデコーダの時間的特徴を集約するTAFormerを提案する。
TAFormerは、空間情報と時間情報を効果的に利用して、コンテキスト認識の特徴表現を取得し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-01-20T05:22:16Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。