Fugu-MT 論文翻訳(概要): Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

論文の概要: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

arxiv url: http://arxiv.org/abs/2310.11441v2
Date: Mon, 6 Nov 2023 07:39:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 20:13:28.877329
Title: Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
Title（参考訳）: GPT-4Vにおける視界外接地によるマークのセット
Authors: Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
Abstract要約: 大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。我々は、SEEM/SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を領域に分割し、これらの領域を一連のマークでオーバーレイする。マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。
参考スコア（独自算出の注目度）: 103.68138147783614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SEEM/SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM in zero-shot setting outperforms the state-of-the-art fully-finetuned referring expression comprehension and segmentation model on RefCOCOg. Code for SoM prompting is made public at: https://github.com/microsoft/SoM.
Abstract（参考訳）: GPT-4Vのような大規模マルチモーダルモデル(LMM)の視覚的グラウンドリング能力を解き放つための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。図1(右)に示すように、私たちはSEEM/SAMのような市販のインタラクティブセグメンテーションモデルを使用して、画像を異なるレベルの粒度の領域に分割し、これらの領域を、アルファ数値、マスク、ボックスなどの一連のマークでオーバーレイします。マーク付きイメージを入力として、gpt-4vは視覚的な接地を必要とする質問に答えることができる。我々は,SoMの広範囲な視覚およびマルチモーダルタスクにおける有効性を検証するための総合的な実証的研究を行った。例えば, ゼロショット設定における SoM を用いた GPT-4V は, RefCOCOg 上での参照表現の理解とセグメンテーションモデルに優れることを示した。 SoMプロンプトのコードは、https://github.com/microsoft/SoM.comで公開されている。

関連論文リスト

LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs [4.478610052538001]
LLaVA-SPは、視覚的表現を高めるために、元の視覚的トークンに6つの空間的視覚的トークンのみを付加する。 LLaVA-SP-CroppingとLLaVA-SP-Poolingは適応的なプールによってグローバルなセマンティクスをキャプチャする。
論文参考訳（メタデータ） (2025-07-01T07:20:11Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。 textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。 textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文参考訳（メタデータ） (2024-08-01T00:00:43Z)
Learning Multi-view Anomaly Detection [42.94263165352097]
本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
論文参考訳（メタデータ） (2024-07-16T17:26:34Z)
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6296629396925]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文参考訳（メタデータ） (2024-04-25T07:29:17Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文参考訳（メタデータ） (2023-11-06T18:59:57Z)
GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。 MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文参考訳（メタデータ） (2023-11-05T10:01:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。