論文の概要: PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs
- arxiv url: http://arxiv.org/abs/2605.23883v1
- Date: Fri, 22 May 2026 17:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.453223
- Title: PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs
- Title(参考訳): PGT:MLLMにおける視覚的接地改善のための手続き的タスク
- Authors: Rim Assouel, Amir Bar, Michal Drozdzal, Adriana Romero-Soriano,
- Abstract要約: Procedurally Generated Tasks (PGT) は、単純なデータ駆動型フレームワークで、二重目的に機能する。
きめ細かい視覚的理解を誘導し、低コストの診断ツールとして機能する。
PGTは、セマンティックオーディエンスから視覚的グラウンド機能を切り離す、追加の密集した監視を生成する。
- 参考スコア(独自算出の注目度): 15.510982929277148
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite remarkable progress in Multimodal Large Language Models (MLLMs), these models still struggle with fine-grained understanding tasks. In this work, we propose Procedurally Generated Tasks (PGT), a simple data-driven framework that serves a dual purpose: inducing fine-grained visual understanding and acting as a low-cost diagnostic tool to identify the source of perception failures. By overlaying unambiguous geometric primitives on images, PGT generate additional dense supervision that disentangles visual grounding capability from semantic priors. Extensive experiments on relational, quantitative, and 3D/depth understanding benchmarks show that PGT yields remarkable gains across diverse architectures. Instruction tuning MLLMs on LLaVA-v1.5-Instruct augmented with PGT data results in improvements of up to +20% on the What'sUp benchmark and +13.3% on CV-Bench-2D, while maintaining general perception capabilities. Moreover, finetuning state-of-the-art MLLMs on PGT data leads to boosts of up to +5.5% on What'sUp and +8.3% on CV-Bench-2D. These findings demonstrate that PGT effectively address the bottleneck of fine-grained perception, revealing that many spatial reasoning deficits stem from inadequate supervision signals rather than inherent architectural or resolution limitations.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の顕著な進歩にもかかわらず、これらのモデルはいまだにきめ細かな理解タスクに苦慮している。
本稿では,2つの目的を果たす単純なデータ駆動型フレームワークであるProcedurally Generated Tasks (PGT)を提案する。
画像上に不明瞭な幾何学的プリミティブをオーバーレイすることにより、PGTは、セマンティックプリミティブから視覚的グラウンド機能を切り離す、より密集した監視を生成する。
リレーショナル、定量的、そして3D/深度理解のベンチマークに関する大規模な実験は、PGTが様々なアーキテクチャで顕著な利益をもたらすことを示している。
PGTデータによるLLaVA-v1.5-InstructのMLLMのインストラクションチューニングにより、What'sUpベンチマークでは最大で20%、CV-Bench-2Dでは+13.3%の改善が達成された。
さらに、PGTデータ上での最先端MLLMの微調整により、What'sUpでは+5.5%、CV-Bench-2Dでは+8.3%まで上昇する。
これらの結果は,PGTが微粒な知覚のボトルネックに効果的に対処していることを示し,空間的推論障害の多くは,固有のアーキテクチャや解像度の制限よりも,監督信号が不十分であることを示している。
関連論文リスト
- PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction [57.63073414949329]
我々は,階層的な3Dポイントクラウド表現をアクションデコーディングプロセスに直接統合する,デュアルシステム3D対応VLAポリシーであるPointACTを提案する。
PointACTは、効率的なボトルネックウィンドウ自己アテンションを備えたマルチスケールのポイントアクションインタラクション機構を採用し、進化するアクショントークンが局所的な幾何学的詳細とグローバルなシーン構造の両方に密に関与できるようにする。
論文 参考訳(メタデータ) (2026-05-20T17:10:31Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Smooth Operator: Smooth Verifiable Reward Activates Spatial Reasoning Ability of Vision-Language Model [18.526821056010384]
視覚言語モデル(VLM)は、3次元シーン理解のための正確な数値予測を実現する上で重要なボトルネックに直面している。
伝統的な強化学習アプローチは、主に相対的なランクに基づいており、しばしば深刻な報酬の分散と勾配不安定に悩まされる。
本稿では,Smooth Numerical Reward Activation (SNRA)演算子とAbsolute-Preserving GRPOフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-12T16:26:42Z) - DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model [22.28268642142352]
DiG (Differential Grounding) は、MLLM がより詳細な認識を学習する新しいプロキシ・タスク・フレームワークである。
この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
論文 参考訳(メタデータ) (2025-12-14T10:40:27Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。