論文の概要: CREMA: Multimodal Compositional Video Reasoning via Efficient Modular
Adaptation and Fusion
- arxiv url: http://arxiv.org/abs/2402.05889v1
- Date: Thu, 8 Feb 2024 18:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:40:01.060724
- Title: CREMA: Multimodal Compositional Video Reasoning via Efficient Modular
Adaptation and Fusion
- Title(参考訳): CREMA: 効率的なモジュール適応と融合によるマルチモーダル合成ビデオ推論
- Authors: Shoubin Yu, Jaehong Yoon, Mohit Bansal
- Abstract要約: CREMAはビデオ推論に新しいモダリティを注入するための効率的なフレームワークである。
本稿では,ビデオ3D,ビデオオーディオ,ビデオ言語推論タスクについて検証する。
- 参考スコア(独自算出の注目度): 65.3593129253195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive advancements in multimodal compositional reasoning
approaches, they are still limited in their flexibility and efficiency by
processing fixed modality inputs while updating a lot of model parameters. This
paper tackles these critical challenges and proposes CREMA, an efficient and
modular modality-fusion framework for injecting any new modality into video
reasoning. We first augment multiple informative modalities (such as optical
flow, 3D point cloud, audio) from given videos without extra human annotation
by leveraging existing pre-trained models. Next, we introduce a query
transformer with multiple parameter-efficient modules associated with each
accessible modality. It projects diverse modality features to the LLM token
embedding space, allowing the model to integrate different data types for
response generation. Furthermore, we propose a fusion module designed to
compress multimodal queries, maintaining computational efficiency in the LLM
while combining additional modalities. We validate our method on video-3D,
video-audio, and video-language reasoning tasks and achieve better/equivalent
performance against strong multimodal LLMs, including BLIP-2, 3D-LLM, and
SeViLA while using 96% fewer trainable parameters. We provide extensive
analyses of CREMA, including the impact of each modality on reasoning domains,
the design of the fusion module, and example visualizations.
- Abstract(参考訳): マルチモーダル合成推論アプローチの素晴らしい進歩にもかかわらず、多くのモデルパラメータを更新しながら固定モダリティ入力を処理することで、柔軟性と効率にはまだ限界がある。
本稿では,ビデオ推論に新たなモダリティを注入するための効率的かつモジュール化されたモダリティ・フュージョンフレームワークであるcrimaを提案する。
まず,既存の事前学習モデルを活用することで,人間の注意を余分に必要とせずに,映像から複数の情報的モダリティ(オプティカルフロー,3dポイントクラウド,オーディオなど)を付加する。
次に、複数のパラメータ効率のモジュールが各アクセス可能なモダリティに関連付けられたクエリ変換器を提案する。
LLMトークンの埋め込みスペースに様々なモダリティ機能を提供しており、モデルが応答生成のために異なるデータタイプを統合することができる。
さらに,マルチモーダルクエリを圧縮し,余分なモダリティを組み合わせつつ,LLMの計算効率を維持できる融合モジュールを提案する。
BLIP-2, 3D-LLM, SeViLA などの強力なマルチモーダル LLM に対して, トレーニング可能なパラメータを 96% 削減した上で, より優れた, 等価な性能を実現する。
本稿では,各モダリティが推論領域に与える影響,融合モジュールの設計,サンプル可視化など,CREMAの広範な分析を行う。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。