論文の概要: MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler
and Multiple Choice Modeling
- arxiv url: http://arxiv.org/abs/2303.05707v1
- Date: Fri, 10 Mar 2023 05:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:09:03.419779
- Title: MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler
and Multiple Choice Modeling
- Title(参考訳): MuLTI: MultiWay-Sampler と Multi Choice Modeling による効率的なビデオ・ランゲージ理解
- Authors: Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi
- Abstract要約: MuLTI は高精度でメモリ効率のよいビデオ・言語理解モデルである。
機能サンプリングとアテンションモジュールを通じて、効率的かつ効果的な機能融合を実現する。
MuLTIはGPUメモリに制限のある長いシーケンスを処理できる。
- 参考スコア(独自算出の注目度): 8.483790265500142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-and-language understanding has a variety of applications in the
industry, such as video question answering, text-video retrieval and
multi-label classification. Existing video-and-language understanding methods
generally adopt heavy multi-modal encoders and feature fusion modules, which
consume large amounts of GPU memory. Especially, they have difficulty dealing
with dense video frames or long text that are prevalent in industrial
applications. In this paper, we propose MuLTI, a highly accurate and
memory-efficient video-and-language understanding model that achieves efficient
and effective feature fusion through feature sampling and attention modules.
Therefore, MuLTI can handle longer sequences with limited GPU memory. Then, we
introduce an attention-based adapter to the encoders, which finetunes the
shallow features to improve the model's performance with low GPU memory
consumption. Finally, to further improve the model's performance, we introduce
a new pretraining task named Multiple Choice Modeling to bridge the task gap
between pretraining and downstream tasks and enhance the model's ability to
align the video and the text. Benefiting from the efficient feature fusion
module, the attention-based adapter and the new pretraining task, MuLTI
achieves state-of-the-art performance on multiple datasets. Implementation and
pretrained models will be released.
- Abstract(参考訳): ビデオ・アンド・ランゲージ理解は、ビデオ質問応答、テキスト・ビデオ検索、マルチラベル分類など、様々な応用がある。
既存のビデオ・言語理解手法では、一般的に重いマルチモーダルエンコーダと大量のGPUメモリを消費する機能融合モジュールが採用されている。
特に、産業用途で広く使われている高密度ビデオフレームや長いテキストを扱うのが困難である。
本稿では,特徴抽出とアテンションモジュールによる効率的な特徴融合を実現する,高精度かつメモリ効率の高い映像・言語理解モデル MuLTI を提案する。
したがって、MuLTIはGPUメモリに制限のある長いシーケンスを処理できる。
次に,メモリ消費の少ないモデルの性能向上のために,浅い特徴の微調整を行うエンコーダに注意に基づくアダプタを導入する。
最後に,モデルの性能をさらに向上させるために,事前学習と下流タスク間のタスクギャップを橋渡しし,映像とテキストを整合させるモデルの能力を高めるために,multiple choice modelingという新しい事前学習タスクを導入する。
効率的な機能融合モジュール、注意に基づくアダプタ、新しい事前トレーニングタスクの恩恵を受け、multiは複数のデータセットで最先端のパフォーマンスを達成します。
実装と事前訓練されたモデルがリリースされる。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。