論文の概要: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation
Models
- arxiv url: http://arxiv.org/abs/2303.04671v1
- Date: Wed, 8 Mar 2023 15:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:29:30.569300
- Title: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation
Models
- Title(参考訳): Visual ChatGPT: Visual Foundation Modelとの対話、描画、編集
- Authors: Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang,
Nan Duan
- Abstract要約: ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。
しかし、ChatGPTは言語で訓練されているため、視覚世界からの画像の処理や生成はできない。
Visual ChatGPTは、さまざまなVisual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
- 参考スコア(独自算出の注目度): 55.11367495777145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT is attracting a cross-field interest as it provides a language
interface with remarkable conversational competency and reasoning capabilities
across many domains. However, since ChatGPT is trained with languages, it is
currently not capable of processing or generating images from the visual world.
At the same time, Visual Foundation Models, such as Visual Transformers or
Stable Diffusion, although showing great visual understanding and generation
capabilities, they are only experts on specific tasks with one-round fixed
inputs and outputs. To this end, We build a system called \textbf{Visual
ChatGPT}, incorporating different Visual Foundation Models, to enable the user
to interact with ChatGPT by 1) sending and receiving not only languages but
also images 2) providing complex visual questions or visual editing
instructions that require the collaboration of multiple AI models with
multi-steps. 3) providing feedback and asking for corrected results. We design
a series of prompts to inject the visual model information into ChatGPT,
considering models of multiple inputs/outputs and models that require visual
feedback. Experiments show that Visual ChatGPT opens the door to investigating
the visual roles of ChatGPT with the help of Visual Foundation Models. Our
system is publicly available at
\url{https://github.com/microsoft/visual-chatgpt}.
- Abstract(参考訳): ChatGPTは、多くのドメインにまたがる優れた会話能力と推論機能を備えた言語インターフェースを提供するため、分野横断の関心を集めている。
しかし、ChatGPTは言語で訓練されているため、現在は視覚世界からの画像の処理や生成ができない。
同時に、視覚トランスフォーマーや安定拡散といった視覚基盤モデルは、優れた視覚理解と生成能力を示すが、それらは1ラウンドの固定入力と出力を持つ特定のタスクについてのみ専門家である。
この目的のために,ユーザが ChatGPT と対話できるように,異なる Visual Foundation Model を組み込んだ \textbf{Visual ChatGPT} というシステムを構築した。
1)言語だけでなく画像も送受信する
2) 複数のAIモデルの協調を必要とする複雑な視覚的質問や視覚的編集指示を提供する。
3)フィードバックを提供し,修正結果を求める。
視覚モデル情報をChatGPTに注入するための一連のプロンプトを設計し、視覚的フィードバックを必要とする複数の入出力モデルとモデルについて検討する。
実験によると、Visual ChatGPTは、Visual Foundation Modelsの助けを借りて、ChatGPTの視覚的役割を調べるための扉を開く。
このシステムは \url{https://github.com/microsoft/visual-chatgpt} で公開されている。
関連論文リスト
- Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
本稿では,事前学習型言語モデル(PLM)のための視覚的微調整手法を提案する。
我々はまず,3つの異なる手法が提案されているトークンセレクタを用いて,入力テキストから視覚的な単語(VH-words)を識別する。
大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - VU-BERT: A Unified framework for Visual Dialog [34.4815433301286]
本稿では,VU-BERTという画像テキスト共同埋め込みのための統合フレームワークを提案し,視覚対話タスクに視覚埋め込みを実現するためにパッチプロジェクションを適用した。
このモデルは、マスク付き言語モデリングと次の発話検索という2つのタスクで訓練されている。
論文 参考訳(メタデータ) (2022-02-22T10:20:14Z) - Multimodal Incremental Transformer with Visual Grounding for Visual
Dialogue Generation [25.57530524167637]
視覚的対話は、視覚環境を理解することに基づいて、一連の一貫性のある質問に答える必要がある。
ビジュアルグラウンドティングは、テキストエンティティによってガイドされたイメージ内の関連オブジェクトを明示的に特定することを目的としている。
マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じてステップごとに、多ターン対話履歴と視覚シーンのステップとをエンコードし、コンテキスト的かつ視覚的に一貫性のある応答を生成する。
論文 参考訳(メタデータ) (2021-09-17T11:39:29Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。