論文の概要: LMEye: An Interactive Perception Network for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.03701v1
- Date: Fri, 5 May 2023 17:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:06:15.027798
- Title: LMEye: An Interactive Perception Network for Large Language Models
- Title(参考訳): LMEye:大規模言語モデルのための対話型知覚ネットワーク
- Authors: Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang
- Abstract要約: LMEyeはLarge Language Models (LLMs)のためのプレイプラグ型対話型知覚ネットワークである。
LMEyeネットワークは、画像の基本的な認識をLLMに提供するための静的な視覚マッピングネットワークで構成されている。
LLMは人間の指示を理解し、それを対話的な知覚ネットワークに送信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。
- 参考スコア(独自算出の注目度): 25.158915306841585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is
resource-intensive. Our paper proposes an alternative method called LMEye, a
play-plug-in Interactive Perception Network for Large Language Models (LLMs),
aiming to improve the accuracy of image understanding for the LVLM. Previous
methods that infuse visual information into LLMs utilize a static visual
mapping network, but lack dynamic interaction between the LLMs and visual
information. LMEye addresses this issue by allowing the LLM to incorporate the
visual information that aligned with human instruction. Specifically, the LMEye
network consists of a static visual mapping network to provide the basic
perception of an image to LLMs. Then, it also contains additional linear layers
responsible for acquiring requests from LLMs, decomposing image features, and
transmitting the interleaved information to LLMs, respectively. In this way,
LLMs act to be in charge of understanding human instructions, sending it to the
interactive perception network, and generating the response based on the
interleaved multimodal information. We evaluate LMEye through extensive
experiments on multimodal question answering and reasoning tasks, demonstrating
that it significantly improves the zero-shot performance of LLMs on multimodal
tasks compared to previous methods.
- Abstract(参考訳): GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。
本稿では,LVLMにおける画像理解の精度向上を目的とした,LMEyeという,大規模言語モデルのための対話型知覚ネットワークを提案する。
LLMに視覚情報を注入する従来の方法は静的な視覚マッピングネットワークを使用していたが、LLMと視覚情報との動的相互作用は欠如している。
LMEyeは、人間の指示に沿った視覚情報をLLMに組み込むことでこの問題に対処する。
具体的には、LMEyeネットワークは、画像の基本的な認識をLLMに提供する静的な視覚マッピングネットワークで構成されている。
また、LLMからの要求を取得し、画像特徴を分解し、インターリーブされた情報をそれぞれLLMに送信する、追加の線形層も含む。
このようにして、LLMは人間の指示を理解し、それを対話的な知覚ネットワークに送信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。
lmeyeをマルチモーダル質問応答および推論タスクに関する広範囲な実験を通じて評価し,従来の手法と比較して,マルチモーダルタスクにおけるllmsのゼロショット性能が有意に向上することを示す。
関連論文リスト
- Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs [34.211455081027964]
V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
論文 参考訳(メタデータ) (2023-12-21T18:55:06Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and
Generation [55.8100879705114]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - mPLUG-Owl: Modularization Empowers Large Language Models with
Multimodality [55.698502221911944]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。