論文の概要: Multi-modal Transformer for Video Retrieval
- arxiv url: http://arxiv.org/abs/2007.10639v1
- Date: Tue, 21 Jul 2020 07:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:57:15.744159
- Title: Multi-modal Transformer for Video Retrieval
- Title(参考訳): ビデオ検索用マルチモーダルトランス
- Authors: Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid
- Abstract要約: ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
- 参考スコア(独自算出の注目度): 67.86763073161012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of retrieving video content relevant to natural language queries
plays a critical role in effectively handling internet-scale datasets. Most of
the existing methods for this caption-to-video retrieval problem do not fully
exploit cross-modal cues present in video. Furthermore, they aggregate
per-frame visual features with limited or no temporal information. In this
paper, we present a multi-modal transformer to jointly encode the different
modalities in video, which allows each of them to attend to the others. The
transformer architecture is also leveraged to encode and model the temporal
information. On the natural language side, we investigate the best practices to
jointly optimize the language embedding together with the multi-modal
transformer. This novel framework allows us to establish state-of-the-art
results for video retrieval on three datasets. More details are available at
http://thoth.inrialpes.fr/research/MMT.
- Abstract(参考訳): 自然言語クエリに関連するビデオコンテンツを検索するタスクは、インターネットスケールのデータセットを効果的に扱う上で重要な役割を果たす。
このキャプションからビデオへの検索問題に対する既存の手法のほとんどは、ビデオに存在するクロスモーダルな手がかりを十分に活用していない。
さらに、フレーム毎の視覚的特徴を時間的情報または制限なく集約する。
本稿では,ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
トランスアーキテクチャは、時間情報のエンコードとモデル化にも利用される。
自然言語に関しては,マルチモーダル変換器を併用した言語埋め込みを最適化するためのベストプラクティスを検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
詳細はhttp://thoth.inrialpes.fr/research/MMT.comで確認できる。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Joint Moment Retrieval and Highlight Detection Via Natural Language
Queries [0.0]
本稿では,自然言語クエリに基づく共同動画要約とハイライト検出のための新しい手法を提案する。
このアプローチでは、視覚とオーディオの両方のキューを使用して、ユーザの自然言語クエリにマッチして、ビデオから最も関連性があり興味深い瞬間を検索する。
提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマーライクなエンコーダデコーダモデルを作成する。
論文 参考訳(メタデータ) (2023-05-08T18:00:33Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。