論文の概要: Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion
- arxiv url: http://arxiv.org/abs/2402.12195v1
- Date: Mon, 19 Feb 2024 14:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:14:12.909069
- Title: Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion
- Title(参考訳): Browse and Concentrate: 事前LLMコンテキスト融合によるマルチモーダルコンテンツの補完
- Authors: Ziyue Wang, Chi Chen, Yiqi Zhu, Fuwen Luo, Peng Li, Ming Yan, Ji
Zhang, Fei Huang, Maosong Sun, Yang Liu
- Abstract要約: LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
- 参考スコア(独自算出の注目度): 73.33837430365065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the bloom of Large Language Models (LLMs), Multimodal Large Language
Models (MLLMs) that incorporate LLMs with pre-trained vision models have
recently demonstrated impressive performance across diverse vision-language
tasks. However, they fall short to comprehend context involving multiple
images. A primary reason for this shortcoming is that the visual features for
each images are encoded individually by frozen encoders before feeding into the
LLM backbone, lacking awareness of other images and the multimodal
instructions. We term this issue as prior-LLM modality isolation and propose a
two phase paradigm, browse-and-concentrate, to enable in-depth multimodal
context fusion prior to feeding the features into LLMs. This paradigm initially
"browses" through the inputs for essential insights, and then revisits the
inputs to "concentrate" on crucial details, guided by these insights, to
achieve a more comprehensive understanding of the multimodal inputs.
Additionally, we develop training strategies specifically to enhance the
understanding of multi-image inputs. Our method markedly boosts the performance
on 7 multi-image scenarios, contributing to increments on average accuracy by
2.13% and 7.60% against strong MLLMs baselines with 3B and 11B LLMs,
respectively.
- Abstract(参考訳): LLM(Large Language Models)の興隆に伴い、LLMと事前訓練されたビジョンモデルを組み合わせたマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
この欠点の主な理由は、各画像の視覚的特徴がLPMバックボーンに入力する前に凍結エンコーダによって個別に符号化され、他の画像やマルチモーダル命令の認識が欠如していることである。
我々はこの問題をLLM前のモダリティ分離と呼び、LLMに機能を供給する前に、より深いマルチモーダルコンテキストの融合を可能にするために、ブラウズ・アンド・集中型2相パラダイムを提案する。
このパラダイムは、まず本質的な洞察のための入力を通して"ブラウジング"し、その後、これらの洞察によって導かれる重要な詳細について"集中"するために入力を再検討し、マルチモーダルな入力をより包括的に理解する。
さらに,マルチイメージ入力の理解を高めるためのトレーニング戦略も開発している。
提案手法は, 3B と 11B LLM の強い MLLM ベースラインに対して, 平均精度 2.13% と 7.60% の増加に寄与する。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.36623165770936]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning
from AI Feedback [41.528462125628266]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [28.656227306028743]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。