論文の概要: DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning
- arxiv url: http://arxiv.org/abs/2408.16195v1
- Date: Thu, 29 Aug 2024 01:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:25:12.146925
- Title: DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning
- Title(参考訳): DLM-VMTL:多タスク同時学習のための二重層マッパー
- Authors: Zeyi Bo, Wuxi Sun, Ye Jin,
- Abstract要約: マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
- 参考スコア(独自算出の注目度): 2.4121373594852846
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, the parameters of backbones of Video Understanding tasks continue to increase and even reach billion-level. Whether fine-tuning a specific task on the Video Foundation Model or pre-training the model designed for the specific task, incurs a lot of overhead. How to make these models play other values than their own tasks becomes a worthy question. Multi-Task Learning(MTL) makes the visual task acquire the rich shareable knowledge from other tasks while joint training. It is fully explored in Image Recognition tasks especially dense predict tasks. Nevertheless, it is rarely used in video domain due to the lack of multi-labels video data. In this paper, a heterogenous data video multi-task prompt learning (VMTL) method is proposed to address above problem. It's different from it in image domain, a Double-Layers Mapper(DLM) is proposed to extract the shareable knowledge into visual promptS and align it with representation of primary task. Extensive experiments prove that our DLM-VMTL performs better than baselines on 6 different video understanding tasks and 11 datasets.
- Abstract(参考訳): 近年、ビデオ理解タスクのバックボーンのパラメータは増加し続け、数十億レベルにまで達している。
ビデオファウンデーションモデルで特定のタスクを微調整するか、特定のタスクのために設計されたモデルを事前訓練するかは、多くのオーバーヘッドを引き起こします。
これらのモデルを、自分たちのタスク以外の価値をどう扱うかは、価値のある問題になります。
MTL(Multi-Task Learning)は、視覚タスクが協調トレーニング中に、他のタスクから豊富な共有可能な知識を得られるようにする。
画像認識タスク、特に高密度予測タスクにおいて完全に探索されている。
しかし、マルチラベルビデオデータがないため、ビデオ領域ではほとんど使われない。
本論文では、上記の問題に対処するために、異種データビデオマルチタスクプロンプト学習(VMTL)手法を提案する。
イメージドメインでは、共有可能な知識をビジュアルプロンプトに抽出し、プライマリタスクの表現と整合させるために、Double-Layers Mapper(DLM)が提案されている。
大規模な実験により、DLM-VMTLは6つの異なるビデオ理解タスクと11のデータセットのベースラインよりも優れていることが証明された。
関連論文リスト
- VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - LiPost: Improved Content Understanding With Effective Use of Multi-task Contrastive Learning [2.611731148829789]
多様なセマンティックラベリングタスクから得られたデータとマルチタスクのコントラスト学習を用いて、事前学習されたトランスフォーマーベースのLLMを微調整する。
我々のモデルはゼロショット学習のベースラインを上回り、多言語サポートの改善を提供する。
この作業は、LLMを特定のアプリケーションにカスタマイズし、微調整するLinkedInの垂直チームにとって、堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2024-05-18T17:28:29Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Multimodal Subtask Graph Generation from Instructional Videos [51.96856868195961]
実世界のタスクは複数の相互依存サブタスクから構成される。
本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。
マルチモーダルなサブタスクグラフ生成(MSG2)を提案する。これは、ノイズの多いWebビデオからタスクに関連するタスクのサブタスク間の依存性を定義するサブタスクグラフを構築するアプローチである。
論文 参考訳(メタデータ) (2023-02-17T03:41:38Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。