論文の概要: MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action
- arxiv url: http://arxiv.org/abs/2303.11381v1
- Date: Mon, 20 Mar 2023 18:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:32:39.247502
- Title: MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action
- Title(参考訳): MM-REACT:マルチモーダル推論とアクションのためのチャットGPTのプロンプト
- Authors: Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab,
Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang
- Abstract要約: MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
- 参考スコア(独自算出の注目度): 96.33509740612486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MM-REACT, a system paradigm that integrates ChatGPT with a pool of
vision experts to achieve multimodal reasoning and action. In this paper, we
define and explore a comprehensive list of advanced vision tasks that are
intriguing to solve, but may exceed the capabilities of existing vision and
vision-language models. To achieve such advanced visual intelligence, MM-REACT
introduces a textual prompt design that can represent text descriptions,
textualized spatial coordinates, and aligned file names for dense visual
signals such as images and videos. MM-REACT's prompt design allows language
models to accept, associate, and process multimodal information, thereby
facilitating the synergetic combination of ChatGPT and various vision experts.
Zero-shot experiments demonstrate MM-REACT's effectiveness in addressing the
specified capabilities of interests and its wide application in different
scenarios that require advanced visual understanding. Furthermore, we discuss
and compare MM-REACT's system paradigm with an alternative approach that
extends language models for multimodal scenarios through joint finetuning.
Code, demo, video, and visualization are available at
https://multimodal-react.github.io/
- Abstract(参考訳): マルチモーダル推論と行動を実現するために,ChatGPTと視覚専門家のプールを統合するシステムパラダイムであるMM-REACTを提案する。
本稿では,既存の視覚モデルや視覚言語モデルの能力を超える可能性のある,解決の興味をそそる高度な視覚タスクの包括的リストを定義し,検討する。
このような高度なビジュアルインテリジェンスを実現するため、MM-REACTはテキスト記述、テキスト化された空間座標、画像やビデオなどの密集した視覚信号のためのファイル名などの表現が可能なテキストプロンプト設計を導入している。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができ、これによりChatGPTと様々な視覚専門家の相乗的組み合わせを容易にすることができる。
ゼロショット実験は、関心の特定の能力に対処するMM-REACTの有効性と、高度な視覚的理解を必要とする様々なシナリオにおける幅広い応用を示す。
さらに,MM-REACTのシステムパラダイムを,関節ファインタニングによる多モーダルシナリオの言語モデルの拡張手法と比較した。
コード、デモ、ビデオ、ビジュアライゼーションはhttps://multimodal-react.github.io/で入手できる。
関連論文リスト
- EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models [28.072184039405784]
大規模言語モデル(LLM)の効率的なプロンプトエンジニアリングを容易にするビジュアル分析システムであるPOEMを提案する。
本システムは,様々なプロンプトによって引き起こされるマルチモーダル知識を包括的に理解するために,モジュール間の相互作用パターンを様々な詳細レベルで探索することを可能にする。
論文 参考訳(メタデータ) (2024-06-06T08:21:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Scaffolding Coordinates to Promote Vision-Language Coordination in Large
Multi-Modal Models [18.772045053892885]
最先端のLMM(Large Multi-Modal Models)は、視覚言語タスクにおいて例外的な機能を示す。
LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いている。
視覚言語コーディネートを促進するために,足場座標の促進を促すScaffoldを提案する。
論文 参考訳(メタデータ) (2024-02-19T11:23:53Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。