Fugu-MT 論文翻訳(概要): Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

論文の概要: Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

arxiv url: http://arxiv.org/abs/2311.15759v1
Date: Mon, 27 Nov 2023 12:29:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 15:32:30.706445
Title: Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs
Title（参考訳）: LLMのビジョン化に向けて - LLMにおけるマルチモーダル知識ストレージと共有の活用-
Authors: Yunxin Li, Baotian Hu, Wei Wang, Xiaochun Cao, Min Zhang
Abstract要約: マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
参考スコア（独自算出の注目度）: 72.49064988035126
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in multimodal large language models (MLLMs) have achieved significant multimodal generation capabilities, akin to GPT-4. These models predominantly map visual information into language representation space, leveraging the vast knowledge and powerful text generation abilities of LLMs to produce multimodal instruction-following responses. We could term this method as LLMs for Vision because of its employing LLMs for visual-language understanding, yet observe that these MLLMs neglect the potential of harnessing visual knowledge to enhance overall capabilities of LLMs, which could be regraded as Vision Enhancing LLMs. In this paper, we propose an approach called MKS2, aimed at enhancing LLMs through empowering Multimodal Knowledge Storage and Sharing in LLMs. Specifically, we introduce the Modular Visual Memory, a component integrated into the internal blocks of LLMs, designed to store open-world visual information efficiently. Additionally, we present a soft Mixtures-of-Multimodal Experts architecture in LLMs to invoke multimodal knowledge collaboration during generation. Our comprehensive experiments demonstrate that MKS2 substantially augments the reasoning capabilities of LLMs in contexts necessitating physical or commonsense knowledge. It also delivers competitive results on multimodal benchmarks.
Abstract（参考訳）: マルチモーダル大言語モデル(mllm)の最近の進歩は、gpt-4のような重要なマルチモーダル生成能力を達成している。これらのモデルは主に視覚情報を言語表現空間にマッピングし、LLMの膨大な知識と強力なテキスト生成能力を利用してマルチモーダルな命令追従応答を生成する。視覚言語理解にLLMを用いるため、この手法を視覚用LLMと呼ぶことができるが、これらのMLLMは視覚知識を活用してLLMの全体的な能力を高める可能性を無視している。本稿では,LLMにおけるマルチモーダル知識ストレージと共有の強化によるLLMの強化を目的としたMKS2という手法を提案する。具体的には,オープンワールドの視覚情報を効率的に格納するように設計された,llmの内部ブロックに統合されたコンポーネントであるモジュラービジュアルメモリを紹介する。さらに,LLMにソフトなMultimodal Expertsアーキテクチャを導入し,世代間マルチモーダルな知識コラボレーションを実現する。我々の総合的な実験により、MKS2は物理的または常識的な知識を必要とする文脈においてLLMの推論能力を大幅に増強することを示した。マルチモーダルベンチマークで競合する結果も提供する。

関連論文リスト

Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。 MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文参考訳（メタデータ） (2024-12-02T09:02:28Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文参考訳（メタデータ） (2024-08-21T17:58:02Z)
From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文参考訳（メタデータ） (2024-04-18T02:43:37Z)
An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing [55.25224913110965]
Expert-Token-Routing は、メタ LLM の語彙内の特別な専門家トークンとして、専門家 LLM を表現している。既存の命令データセットから専門家のLSMの暗黙の専門知識を学ぶのをサポートする。また、ユーザの視点から詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
論文参考訳（メタデータ） (2024-03-25T15:17:05Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。