論文の概要: Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels
- arxiv url: http://arxiv.org/abs/2505.13788v1
- Date: Tue, 20 May 2025 00:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.577391
- Title: Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels
- Title(参考訳): 接地V:VLMで画像の複雑な教示を教える
- Authors: Yongshuo Zong, Qin Zhang, Dongsheng An, Zhihua Li, Xiang Xu, Linghan Xu, Zhuowen Tu, Yifan Xing, Onkar Dabeer,
- Abstract要約: テキストインストラクションに基づくグラウンドリングにおける5つの重要な現実的課題に対処する。
提案手法は,既存の画素レベルのアノテーションに関連付けられた高品質な命令応答ペアを生成する。
実験結果から, グラウンド-Vで訓練したモデルでは, 多様なグラウンドタスクにまたがる大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 30.722073025794025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a simple yet effective workflow for automatically scaling instruction-following data to elicit pixel-level grounding capabilities of VLMs under complex instructions. In particular, we address five critical real-world challenges in text-instruction-based grounding: hallucinated references, multi-object scenarios, reasoning, multi-granularity, and part-level references. By leveraging knowledge distillation from a pre-trained teacher model, our approach generates high-quality instruction-response pairs linked to existing pixel-level annotations, minimizing the need for costly human annotation. The resulting dataset, Ground-V, captures rich object localization knowledge and nuanced pixel-level referring expressions. Experiment results show that models trained on Ground-V exhibit substantial improvements across diverse grounding tasks. Specifically, incorporating Ground-V during training directly achieves an average accuracy boost of 4.4% for LISA and a 7.9% for PSALM across six benchmarks on the gIoU metric. It also sets new state-of-the-art results on standard benchmarks such as RefCOCO/+/g. Notably, on gRefCOCO, we achieve an N-Acc of 83.3%, exceeding the previous state-of-the-art by more than 20%.
- Abstract(参考訳): 本研究は,複雑な命令下でのVLMの画素レベルのグラウンド機能を実現するために,命令追従データを自動スケーリングする,シンプルで効果的なワークフローを提案する。
特に,テキストインストラクションに基づく接地における5つの重要な現実的課題に対処する: 幻覚的参照,多目的シナリオ,推論,多粒度,部分レベルの参照。
事前学習した教師モデルからの知識蒸留を利用して,既存の画素レベルのアノテーションに関連付けられた高品質な命令応答ペアを生成し,コストのかかる人的アノテーションの必要性を最小限に抑える。
得られたデータセットであるGround-Vは、リッチなオブジェクトローカライゼーション知識とニュアンスされたピクセルレベルの参照表現をキャプチャする。
実験結果から, グラウンド-Vで訓練したモデルでは, 多様なグラウンドタスクにまたがる大幅な改善が見られた。
具体的には、トレーニング中にGround-Vを組み込むことで、平均精度が4.4%向上し、PSALMは7.9%向上した。
また、RefCOCO/+/gのような標準ベンチマークで新しい最先端の結果も設定する。
特にgRefCOCOでは、N-Accが83.3%に達し、前回の最先端を20%以上上回っている。
関連論文リスト
- GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding [39.967352995143855]
GroundingSuiteは、ビジョンと言語モダリティのギャップを埋めることを目指している。
1)複数のVision-Language Model(VLM)エージェントを活用する自動データアノテーションフレームワーク,(2)9.56万の多様な参照表現とその対応するセグメンテーションを含む大規模トレーニングデータセット,(3)3800の画像からなる精巧にキュレートされた評価ベンチマーク。
論文 参考訳(メタデータ) (2025-03-13T17:43:10Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language
Models [30.723122000372538]
AnomalyGPTはLarge Vision-Language Models (LVLM)に基づく新しいIADアプローチである
我々は、異常な画像をシミュレートし、各画像に対応するテキスト記述を生成することで、トレーニングデータを生成する。
AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-29T15:02:53Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。