論文の概要: VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding
- arxiv url: http://arxiv.org/abs/2105.09996v1
- Date: Thu, 20 May 2021 19:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 13:57:07.680285
- Title: VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding
- Title(参考訳): VLM:ビデオ理解のためのタスク非依存ビデオ言語モデル事前学習
- Authors: Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh,
Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer
- Abstract要約: 本稿では,タスクに依存しないマルチモーダル事前学習手法を提案する。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
- 参考スコア(独自算出の注目度): 78.28397557433544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simplified, task-agnostic multi-modal pre-training approach that
can accept either video or text input, or both for a variety of end tasks.
Existing pre-training are task-specific by adopting either a single cross-modal
encoder that requires both modalities, limiting their use for retrieval-style
end tasks or more complex multitask learning with two unimodal encoders,
limiting early cross-modal fusion. We instead introduce new pretraining masking
schemes that better mix across modalities (e.g. by forcing masks for text to
predict the closest video embeddings) while also maintaining separability (e.g.
unimodal predictions are sometimes required, without using all the input).
Experimental results show strong performance across a wider range of tasks than
any previous methods, often outperforming task-specific pre-training.
- Abstract(参考訳): 本稿では,ビデオ入力とテキスト入力のどちらでも受理可能な,タスクに依存しないマルチモーダル事前学習手法を提案する。
既存の事前訓練は、両方のモダリティを必要とする単一のクロスモーダルエンコーダを採用し、検索スタイルのエンドタスクの使用を制限するか、2つの非モーダルエンコーダによるより複雑なマルチタスク学習を制限し、初期のクロスモーダル融合を制限することでタスク固有のものである。
代わりに、モダリティ(例えば、モダリティ)をよりうまく混合する、新しい事前訓練マスキングスキームを導入する。
テキストに最も近いビデオ埋め込みを予測するためにマスクを強制すると同時に、分離性(例)を維持している。
すべての入力を使わずに、一助予測が時々必要となる。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs [33.2696184519275]
MultiGPromptは、グラフ表現学習のための新しいマルチタスク事前学習およびプロンプトフレームワークである。
本稿では,タスク固有の知識とグローバルな事前学習知識を活用するために,構成されたプロンプトとオープンプロンプトからなるデュアルプロンプト機構を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:36:53Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Learning Easily Updated General Purpose Text Representations with
Adaptable Task-Specific Prefixes [22.661527526471996]
ダウンストリームタスク毎にトレーニング済みの大きな言語モデルを微調整すると、計算負荷が発生する。
そこで本研究では,ソースタスクを用いてテキストの固定表現を学習するためのプレフィックスベースの手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T21:31:03Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis [25.482853330324748]
近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。
i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。
我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-17T08:44:00Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。