論文の概要: MDMMT: Multidomain Multimodal Transformer for Video Retrieval
- arxiv url: http://arxiv.org/abs/2103.10699v1
- Date: Fri, 19 Mar 2021 09:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:32:32.477179
- Title: MDMMT: Multidomain Multimodal Transformer for Video Retrieval
- Title(参考訳): mdmmt:ビデオ検索のためのマルチドメインマルチモーダルトランスフォーマー
- Authors: Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr
Petiushko
- Abstract要約: MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
- 参考スコア(独自算出の注目度): 63.872634680339644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new state-of-the-art on the text to video retrieval task on
MSRVTT and LSMDC benchmarks where our model outperforms all previous solutions
by a large margin. Moreover, state-of-the-art results are achieved with a
single model on two datasets without finetuning. This multidomain
generalisation is achieved by a proper combination of different video caption
datasets. We show that training on different datasets can improve test results
of each other. Additionally we check intersection between many popular datasets
and found that MSRVTT has a significant overlap between the test and the train
parts, and the same situation is observed for ActivityNet.
- Abstract(参考訳): 我々は,MSRVTT と LSMDC のベンチマークにおいて,テキストからビデオへの検索タスクを新たに提案する。
さらに、最先端の結果は、2つのデータセット上の1つのモデルで、微調整することなく達成される。
このマルチドメインの一般化は、異なるビデオキャプションデータセットの適切な組み合わせによって達成される。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
さらに、多くの一般的なデータセットの交わりを確認し、MSRVTTがテストと列車の部品の間にかなりの重複があることを発見し、ActivityNetでも同様の状況が観察されている。
関連論文リスト
- IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Benchmarking Multimodal Variational Autoencoders: CdSprites+ Dataset and Toolkit [6.187270874122921]
本稿では,系統的マルチモーダルVAEトレーニングと比較のためのツールキットを提案する。
本稿では,共同生成能力とクロスジェネレーション能力の包括的評価を目的とした,アンタングル型バイモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:26:28Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Multi-query Video Retrieval [44.32936301162444]
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。
我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
論文 参考訳(メタデータ) (2022-01-10T20:44:46Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。