論文の概要: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation
Models
- arxiv url: http://arxiv.org/abs/2303.04671v1
- Date: Wed, 8 Mar 2023 15:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:29:30.569300
- Title: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation
Models
- Title(参考訳): Visual ChatGPT: Visual Foundation Modelとの対話、描画、編集
- Authors: Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang,
Nan Duan
- Abstract要約: ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。
しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。
Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
- 参考スコア(独自算出の注目度): 55.11367495777145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT is attracting a cross-field interest as it provides a language
interface with remarkable conversational competency and reasoning capabilities
across many domains. However, since ChatGPT is trained with languages, it is
currently not capable of processing or generating images from the visual world.
At the same time, Visual Foundation Models, such as Visual Transformers or
Stable Diffusion, although showing great visual understanding and generation
capabilities, they are only experts on specific tasks with one-round fixed
inputs and outputs. To this end, We build a system called \textbf{Visual
ChatGPT}, incorporating different Visual Foundation Models, to enable the user
to interact with ChatGPT by 1) sending and receiving not only languages but
also images 2) providing complex visual questions or visual editing
instructions that require the collaboration of multiple AI models with
multi-steps. 3) providing feedback and asking for corrected results. We design
a series of prompts to inject the visual model information into ChatGPT,
considering models of multiple inputs/outputs and models that require visual
feedback. Experiments show that Visual ChatGPT opens the door to investigating
the visual roles of ChatGPT with the help of Visual Foundation Models. Our
system is publicly available at
\url{https://github.com/microsoft/visual-chatgpt}.
- Abstract(参考訳): ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。
しかし、ChatGPTは言語で訓練されているため、現在は視覚世界からの画像の処理や生成ができない。
同時に、視覚トランスフォーマーや安定拡散といった視覚基盤モデルは、優れた視覚理解と生成能力を示すが、それらは1ラウンドの固定入力と出力を持つ特定のタスクについてのみ専門家である。
この目的のために,ユーザが ChatGPT と対話できるように,異なる Visual Foundation Model を組み込んだ \textbf{Visual ChatGPT} というシステムを構築した。
1)言語だけでなく画像も送受信する
2) 複数のAIモデルの協調を必要とする複雑な視覚的質問や視覚的編集指示を提供する。
3)フィードバックを提供し,修正結果を求める。
視覚モデル情報をChatGPTに注入するための一連のプロンプトを設計し、視覚的フィードバックを必要とする複数の入出力モデルとモデルについて検討する。
実験によると、Visual ChatGPTは、Visual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
このシステムは \url{https://github.com/microsoft/visual-chatgpt} で公開されている。
関連論文リスト
- Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [27.45225442048711]
我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T12:21:37Z) - MIVC: Multiple Instance Visual Component for Visual-Language Models [46.869139462026]
様々な画像入力間のギャップを、市販の視覚言語モデルで埋める汎用のマルチインスタンスビジュアルコンポーネントMIVCを提案する。
視覚的質問応答,分類,キャプションタスクにおいて,MIVCを視覚言語モデルにプラグインすることで,モデル性能を一貫した改善が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T16:33:32Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual
Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。
本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-17T03:14:00Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT
Beyond Language [82.92236977726655]
InternGPTは textbfinteraction, textbfnonverbal, textbfchatbot の略である。
InternGPT(iGPT)という対話型視覚フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:58:34Z) - ChatLLM Network: More brains, More intelligence [42.65167827451101]
本稿では,複数の対話型言語モデルと対話し,フィードバックを提供し,一緒に考えることができるChatLLMネットワークを提案する。
我々は,ネットワークが問題解決の大幅な改善を達成し,各メンバーの観測可能性の向上につながったことを示す。
論文 参考訳(メタデータ) (2023-04-24T08:29:14Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。