論文の概要: Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
- arxiv url: http://arxiv.org/abs/2603.06663v1
- Date: Mon, 02 Mar 2026 09:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.685627
- Title: Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
- Title(参考訳): Graph-of-Mark:グラフベースのビジュアルプロンプティングを用いたマルチモーダル言語モデルにおける空間推論の促進
- Authors: Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro,
- Abstract要約: 空間推論タスクのためにシーンを入力画像上にオーバーレイする最初のピクセルレベルのプロンプト技術であるGoMを提案する。
3つのオープンソースと4つの異なるデータセットにまたがるGoMを評価し、描画されたコンポーネントに対する広範な改善を行い、テキストプロンプトにおける補助グラフ記述の影響を調査した。
- 参考スコア(独自算出の注目度): 9.904299892454594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in training-free visual prompting, such as Set-of-Mark, have emerged as a promising direction for enhancing the grounding capabilities of multimodal language models (MLMs). These techniques operate by partitioning the input image into object regions and annotating them with marks, predominantly boxes with numeric identifiers, before feeding the augmented image to the MLM. However, these approaches treat marked objects as isolated entities, failing to capture the relationships between them. On these premises, we propose Graph-of-Mark (GoM), the first pixel-level visual prompting technique that overlays scene graphs onto the input image for spatial reasoning tasks. We evaluate GoM across 3 open-source MLMs and 4 different datasets, conducting extensive ablations on drawn components and investigating the impact of auxiliary graph descriptions in the text prompt. Our results demonstrate that GoM consistently improves the zero-shot capability of MLMs in interpreting object positions and relative directions, improving base accuracy in visual question answering and localization up to 11 percentage points.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)の基盤化能力を高めるための有望な方向として,Set-of-Markのようなトレーニングフリーなビジュアルプロンプトの最近の進歩が出現している。
これらの技術は、入力された画像をオブジェクト領域に分割し、マークでアノテートすることで動作する。
しかしながら、これらのアプローチは、マークされたオブジェクトを独立したエンティティとして扱い、それら間の関係を捉えない。
これらの前提に基づいて,空間推論タスクのためにシーングラフを入力画像上にオーバーレイする最初のピクセルレベルのビジュアルプロンプト技術であるGraph-of-Mark(GoM)を提案する。
3つのオープンソースMLMと4つの異なるデータセットにまたがるGoMを評価し、描画されたコンポーネントに対する広範な改善を行い、テキストプロンプトにおける補助グラフ記述の影響を調査した。
以上の結果から,GoMは対象位置と相対方向の解釈におけるMLMのゼロショット能力を常に改善し,視覚的質問応答におけるベース精度を最大11ポイント向上することを示した。
関連論文リスト
- ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - Visual Representations inside the Language Model [36.35124375782294]
本研究では,視覚情報の流れを言語モデルを用いて研究し,画像値トークンが十分な情報をエンコードし,認知度の高いタスクを遂行することを示した。
入力された視覚エンコーディングのプロジェクションから受信した視覚情報を言語モデルで拡張するが、複数のタスクの視覚情報は同等の視覚エンコーダ(SigLIP)よりも少ない。
次に、画像入力にテキストプレフィックスを追加することで、視覚表現の知覚能力を向上させることを示し、言語モデルにおける視覚情報制御について議論する。
論文 参考訳(メタデータ) (2025-10-06T14:01:39Z) - Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文 参考訳(メタデータ) (2025-06-12T01:44:46Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。