論文の概要: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
- arxiv url: http://arxiv.org/abs/2310.11441v1
- Date: Tue, 17 Oct 2023 17:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:37:36.171349
- Title: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
- Title(参考訳): GPT-4Vにおける視界外接地によるマークのセット
- Authors: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng
Gao
- Abstract要約: 大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を異なるレベルの粒度の領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
- 参考スコア(独自算出の注目度): 103.68138147783614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring
segmentation model on RefCOCOg in a zero-shot setting.
- Abstract(参考訳): GPT-4Vのような大規模マルチモーダルモデル(LMM)の視覚的グラウンドリング能力を解き放つための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
図1(右)に示すように、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、イメージを異なるレベルの粒度の領域に分割し、これらの領域を、アルファ数値、マスク、ボックスなどの一連のマークでオーバーレイする。
マーク付きイメージを入力として、gpt-4vは視覚的な接地を必要とする質問に答えることができる。
我々は,SoMの広範囲な視覚およびマルチモーダルタスクにおける有効性を検証するための総合的な実証的研究を行った。
例えば、SoMを用いたGPT-4Vは、ゼロショット設定でRefCOCOg上の最先端の完全精細参照セグメンテーションモデルより優れていることを示す。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Making Large Multimodal Models Understand Arbitrary Visual Prompts [40.526384693638065]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。
これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。
我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文 参考訳(メタデータ) (2023-12-01T18:59:56Z) - GLaMM: Pixel Grounding Large Multimodal Model [59.84473815326636]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot
Anomaly Detection [53.44730981817424]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions [130.51646691263633]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided
Visual Foundation Models [5.360103006279672]
本研究では,従来のシナリオと画像の相違が顕著なリモートセンシング領域に焦点を当てた。
テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセグメンテーションタスクを容易にするために,複数の基盤モデルを活用するパイプラインを開発した。
パイプラインは、広く使われているリモートセンシングデータセットをベンチマークし、その有効性を示すための予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。