論文の概要: LMEye: An Interactive Perception Network for Large Language Models
- arxiv url: http://arxiv.org/abs/2305.03701v2
- Date: Thu, 18 May 2023 17:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:15:36.441312
- Title: LMEye: An Interactive Perception Network for Large Language Models
- Title(参考訳): LMEye:大規模言語モデルのための対話型知覚ネットワーク
- Authors: Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang
- Abstract要約: Interactive Perception Network (IPN) は、Large Language Models (LLM) のプレイ・アンド・プラグモジュールである。
IPNは単純な視覚マッピングネットワークで構成されており、LCMのイメージの基本的な認識を提供する。
LLMは、人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。
- 参考スコア(独自算出の注目度): 25.158915306841585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is
resource-intensive. Our paper presents a play-and-plug module for Large
Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to
achieve a LVLM by incorporating the image understanding capability into LLMs.
Previous methods incorporate visual information into LLMs with a simple visual
mapping network, where the image feature is projected into the embedding space
of LLMs via a linear layer. Such mapping network projects the image feature
once yet does not consider the interaction between the image and the human
input query. Hence, the obtained visual information with no connections with
human intention may be inadequate for LLMs to make intention-following
responses, which we term as static visual information. IPN addresses this issue
by allowing the LLM to request the desired visual information aligned with
various human instructions, which we term as the dynamic interaction between
the LLM and visual information. Specifically, IPN consists of a simple visual
mapping network to provide the basic perception of an image for LLMs. It also
contains additional modules responsible for acquiring requests from LLMs,
performing request-based visual information interaction, and transmitting the
resulting interacted visual information to LLMs, respectively. In this way,
LLMs act to understand the human query, deliver the corresponding request to
the request-based visual information interaction module, and generate the
response based on the interleaved multimodal information. We evaluate IPN
through extensive experiments on multimodal question answering, reasoning, and
so on, demonstrating that it significantly improves the zero-shot performance
of LVLMs on various multimodal tasks compared to previous methods.
- Abstract(参考訳): GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。
本稿では,画像理解機能をllmに組み込むことでlvlmを実現することを目的とした,大規模言語モデル(llm)のためのプレイアンドプラグモジュール,すなわち対話型知覚ネットワーク(ipn)を提案する。
従来の手法では視覚情報をシンプルな視覚マッピングネットワークでLLMに組み込んでおり、画像特徴を線形層を介してLLMの埋め込み空間に投影する。
このようなマッピングネットワークでは、画像機能はまだ画像と人間の入力クエリの相互作用を考慮していない。
したがって、人間の意図とは無関係に得られる視覚情報は、LLMが意図追従応答を行うのに不十分である可能性がある。
IPNは、LLMが所望の視覚情報を様々な人間の指示に従って要求することを許可することでこの問題に対処する。
具体的には、IPNは単純な視覚マッピングネットワークからなり、LCMのイメージの基本的な認識を提供する。
また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。
このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。
我々は,マルチモーダル質問応答や推論などの広範な実験を通じてIPNを評価し,従来の手法と比較して,様々なマルチモーダルタスクにおけるLVLMのゼロショット性能を著しく向上させることを示した。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。
ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。
本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-09-05T08:47:34Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs [34.211455081027964]
V*は、LLMの世界知識を利用して効率的なビジュアルクエリを行うビジュアルサーチ機構である。
本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。
論文 参考訳(メタデータ) (2023-12-21T18:55:06Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。