論文の概要: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
- arxiv url: http://arxiv.org/abs/2310.11441v2
- Date: Mon, 6 Nov 2023 07:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:13:28.877329
- Title: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
- Title(参考訳): GPT-4Vにおける視界外接地によるマークのセット
- Authors: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng
Gao
- Abstract要約: 大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。
マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
- 参考スコア(独自算出の注目度): 103.68138147783614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Set-of-Mark (SoM), a new visual prompting method, to unleash the
visual grounding abilities of large multimodal models (LMMs), such as GPT-4V.
As illustrated in Fig. 1 (right), we employ off-the-shelf interactive
segmentation models, such as SEEM/SAM, to partition an image into regions at
different levels of granularity, and overlay these regions with a set of marks
e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can
answer the questions that require visual grounding. We perform a comprehensive
empirical study to validate the effectiveness of SoM on a wide range of
fine-grained vision and multimodal tasks. For example, our experiments show
that GPT-4V with SoM in zero-shot setting outperforms the state-of-the-art
fully-finetuned referring expression comprehension and segmentation model on
RefCOCOg. Code for SoM prompting is made public at:
https://github.com/microsoft/SoM.
- Abstract(参考訳): GPT-4Vのような大規模マルチモーダルモデル(LMM)の視覚的グラウンドリング能力を解き放つための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。
図1(右)に示すように、私たちはSEEM/SAMのような市販のインタラクティブセグメンテーションモデルを使用して、画像を異なるレベルの粒度の領域に分割し、これらの領域を、アルファ数値、マスク、ボックスなどの一連のマークでオーバーレイします。
マーク付きイメージを入力として、gpt-4vは視覚的な接地を必要とする質問に答えることができる。
我々は,SoMの広範囲な視覚およびマルチモーダルタスクにおける有効性を検証するための総合的な実証的研究を行った。
例えば, ゼロショット設定における SoM を用いた GPT-4V は, RefCOCOg 上での参照表現の理解とセグメンテーションモデルに優れることを示した。
SoMプロンプトのコードは、https://github.com/microsoft/SoM.comで公開されている。
関連論文リスト
- List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6296629396925]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (2024-04-25T07:29:17Z) - Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - GLaMM: Pixel Grounding Large Multimodal Model [59.84473815326636]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided
Visual Foundation Models [5.360103006279672]
本研究では,従来のシナリオと画像の相違が顕著なリモートセンシング領域に焦点を当てた。
テキストプロンプトによって誘導されるリモートセンシング画像セマンティックセグメンテーションタスクを容易にするために,複数の基盤モデルを活用するパイプラインを開発した。
パイプラインは、広く使われているリモートセンシングデータセットをベンチマークし、その有効性を示すための予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。