論文の概要: MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling
- arxiv url: http://arxiv.org/abs/2303.05707v2
- Date: Fri, 1 Mar 2024 02:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:39:57.770683
- Title: MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling
- Title(参考訳): MuLTI: テキストガイド型マルチウェイサンプラーと複数選択モデルによる効率的なビデオ・ランゲージ理解
- Authors: Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi
- Abstract要約: 本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
- 参考スコア(独自算出の注目度): 7.737755720567113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-and-language understanding has a variety of applications in the
industry, such as video question answering, text-video retrieval, and
multi-label classification. Existing video-and-language understanding methods
generally adopt heavy multi-modal encoders and feature fusion modules, which
consume high computational costs. Specially, they have difficulty dealing with
dense video frames or long text prevalent in industrial applications. This
paper proposes MuLTI, a highly accurate and efficient video-and-language
understanding model that achieves efficient and effective feature fusion and
rapid adaptation to downstream tasks. Specifically, we design a Text-Guided
MultiWay-Sampler based on adapt-pooling residual mapping and self-attention
modules to sample long sequences and fuse multi-modal features, which reduces
the computational costs and addresses performance degradation caused by
previous samplers. Therefore, MuLTI can handle longer sequences with limited
computational costs. Then, to further enhance the model's performance and fill
in the lack of pretraining tasks in the video question answering, we propose a
new pretraining task named Multiple Choice Modeling. This task bridges the gap
between pretraining and downstream tasks and improves the model's ability to
align video and text features. Benefiting from the efficient feature fusion
module and the new pretraining task, MuLTI achieves state-of-the-art
performance on multiple datasets. Implementation and pretrained models will be
released.
- Abstract(参考訳): ビデオ・アンド・言語理解は、ビデオ質問応答、テキスト・ビデオ検索、マルチラベル分類など、業界に様々な応用がある。
既存のビデオ・言語理解手法では、高計算コストを消費する重いマルチモーダルエンコーダと機能融合モジュールが一般的である。
特に、工業用途で一般的な密集したビデオフレームや長いテキストを扱うのが困難である。
本稿では,効率的な特徴融合と下流タスクへの迅速な適応を実現する,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
具体的には, 適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計し, 複数モードの特徴を抽出し, 計算コストを低減し, 従来のサンプリング器による性能劣化に対処する。
したがって、MuLTIは計算コストに制限のある長いシーケンスを処理できる。
そこで本研究では,モデルの性能をさらに向上させ,ビデオ質問応答における事前学習タスクの欠如を補うために,Multiple Choice Modelingという新たな事前学習タスクを提案する。
このタスクは、事前トレーニングと下流タスクのギャップを埋め、ビデオとテキストの機能を調整するモデルの能力を改善する。
MuLTIは効率的な機能融合モジュールと新しい事前トレーニングタスクから恩恵を受け、複数のデータセット上で最先端のパフォーマンスを達成する。
実装と事前訓練されたモデルがリリースされる。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。