論文の概要: CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion
- arxiv url: http://arxiv.org/abs/2402.05889v2
- Date: Wed, 12 Jun 2024 21:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:45:25.510992
- Title: CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion
- Title(参考訳): CREMA:マルチモーダルモジュール核融合による汎用的で効率的なビデオランゲージ推論
- Authors: Shoubin Yu, Jaehong Yoon, Mohit Bansal,
- Abstract要約: CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
- 参考スコア(独自算出の注目度): 58.15403987979496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive advancements in recent multimodal reasoning approaches, they are still limited in flexibility and efficiency, as these models typically process only a few fixed modality inputs and require updates to numerous parameters. This paper tackles these critical challenges and proposes CREMA, a generalizable, highly efficient, and modular modality-fusion framework that can incorporate any new modality to enhance video reasoning. We first augment multiple informative modalities (such as optical flow, 3D point cloud, audio, thermal heatmap, and touch map) from given videos without extra human annotation by leveraging sensors or existing pre-trained models. Next, we introduce a query transformer with multiple parameter-efficient modules associated with each accessible modality. It projects diverse modality features to the LLM token embedding space, allowing the model to integrate different data types for response generation. Furthermore, we propose a novel progressive multimodal fusion design supported by a lightweight fusion module and modality-sequential training strategy. It helps compress information across various assisting modalities, maintaining computational efficiency in the LLM while improving performance. We validate our method on 7 video-language reasoning tasks assisted by diverse modalities, including conventional VideoQA and Video-Audio/3D/Touch/Thermal QA, and achieve better/equivalent performance against strong multimodal LLMs, including OneLLM, BLIP-2, and SeViLA while reducing over 90% trainable parameters. We provide extensive analyses of CREMA, including the impact of each modality on reasoning domains, the design of the fusion module, and example visualizations.
- Abstract(参考訳): 近年のマルチモーダル推論アプローチの顕著な進歩にもかかわらず、これらのモデルは柔軟性と効率に制限されている。
本稿では、これらの重要な課題に取り組み、ビデオ推論を強化するために新しいモダリティを組み込んだ、一般化可能で高効率でモジュール化されたモダリティ融合フレームワークCREMAを提案する。
まず、センサや既存のトレーニング済みモデルを利用して、人間のアノテーションを使わずに、与えられたビデオから複数の情報モダリティ(光学フロー、3Dポイントクラウド、オーディオ、ヒートマップ、タッチマップなど)を拡大する。
次に、複数のパラメータ効率のモジュールが各アクセス可能なモダリティに関連付けられているクエリ変換器を提案する。
LLMトークンの埋め込みスペースに様々なモダリティ機能を提供しており、モデルが応答生成のために異なるデータタイプを統合することができる。
さらに,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支持される新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
様々なアシストモードの情報を圧縮し、LLMの計算効率を維持しながら性能を向上させる。
我々は,従来のビデオQAやビデオAudio/3D/Touch/Thermal QAを含む7つのビデオ言語推論タスクについて検証し,トレーニング可能なパラメータを90%以上削減しつつ,OneLLM,BLIP-2,SeViLAを含む強力なマルチモーダルLCMに対して,より優れた/等価な性能を実現する。
本稿では,各モダリティが推論領域に与える影響,融合モジュールの設計,サンプル可視化など,CREMAの広範な分析を行う。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。