論文の概要: GRAID: Enhancing Spatial Reasoning of VLMs Through High-Fidelity Data Generation
- arxiv url: http://arxiv.org/abs/2510.22118v2
- Date: Tue, 28 Oct 2025 00:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.883848
- Title: GRAID: Enhancing Spatial Reasoning of VLMs Through High-Fidelity Data Generation
- Title(参考訳): GRAID:高忠実度データ生成によるVLMの空間共振強化
- Authors: Karim Elmaaroufi, Liheng Lai, Justin Svegliato, Yutong Bai, Sanjit A. Seshia, Matei Zaharia,
- Abstract要約: 標準検出器から2次元ボックスを用いて空間推論を学習するためのフレームワークを提案する。
GRAIDデータに基づいて訓練すると、モデルは過剰詳細保持型を一般化する空間的推論概念を学習する。
また、すべての質問タイプでトレーニングすると、いくつかの既存のベンチマークの改善が達成されることを示す。
- 参考スコア(独自算出の注目度): 31.365285503503475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) achieve strong performance on many vision-language tasks but often struggle with spatial reasoning$\unicode{x2014}$a prerequisite for many applications. Empirically, we find that a dataset produced by a current training data generation pipeline has a 57.6% human validation rate. These rates stem from current limitations: single-image 3D reconstruction introduces cascading modeling errors and requires wide answer tolerances, while caption-based methods require hyper-detailed annotations and suffer from generative hallucinations. We present GRAID, built on the key insight that qualitative spatial relationships can be reliably determined from 2D geometric primitives alone. By operating exclusively on 2D bounding boxes from standard object detectors, GRAID avoids both 3D reconstruction errors and generative hallucinations, resulting in datasets that are of higher quality than existing tools that produce similar datasets as validated by human evaluations. We apply our framework to the BDD100k, NuImages, and Waymo datasets, generating over 8.5 million high-quality VQA pairs creating questions spanning spatial relations, counting, ranking, and size comparisons. We evaluate one of the datasets and find it achieves 91.16% human-validated accuracy$\unicode{x2014}$compared to 57.6% on a dataset generated by recent work. Critically, we demonstrate that when trained on GRAID data, models learn spatial reasoning concepts that generalize: models fine-tuned on 6 question types improve on over 10 held-out types, with accuracy gains of 47.5% on BDD and 37.9% on NuImages for Llama 3.2B 11B, and when trained on all questions types, achieve improvements on several existing benchmarks such as BLINK. The GRAID framework, datasets, and additional information can be found $\href{this https URL}{here}$.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くの視覚言語タスクにおいて強力なパフォーマンスを達成するが、多くのアプリケーションにおいて必要条件である空間的推論(英語版)$\unicode{x2014}$a に苦慮することが多い。
経験的に、現在のトレーニングデータ生成パイプラインによって生成されたデータセットは、57.6%の人間による検証率を持つ。
シングルイメージの3D再構成はカスケードモデリングエラーを導入し、幅広い応答許容度を必要とするが、キャプションベースの手法では過剰に詳細なアノテーションが必要であり、生成幻覚に悩まされる。
本稿では2次元幾何学的プリミティブのみから定性的空間関係を確実に決定できるというキーインサイトに基づいてGRAIDを提案する。
標準オブジェクト検出器から2Dバウンディングボックスにのみ操作することで、GRAIDは3D再構成エラーと生成幻覚の両方を回避し、その結果、人間の評価によって検証されたように、類似のデータセットを生成する既存のツールよりも高品質なデータセットが生成される。
BDD100k、NuImages、Waymoのデータセットに私たちのフレームワークを適用し、850万以上の高品質なVQAペアを生成します。
我々は、データセットの1つを評価し、その精度を91.16%、最近の研究によって生成されたデータセットで57.6%に比較した。
6つの質問タイプに微調整されたモデルでは、BDDで47.5%、Llama 3.2B 11Bで37.9%、すべての質問タイプでトレーニングされたモデルは、BLINKなどの既存のベンチマークで改善された。
GRAIDフレームワーク、データセット、その他の情報は、$\href{this https URL}{here}$で見ることができる。
関連論文リスト
- VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery [14.993425622341917]
VaseVQA-3Dデータセットは古代ギリシアの陶器分析のための最初の3次元視覚質問応答データセットとして機能する。
我々はさらにVaseVLMモデルを開発し、ドメイン適応学習によるVaseアーチファクト解析におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2025-10-06T04:28:39Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Zero-shot detection of buildings in mobile LiDAR using Language Vision Model [0.8192907805418583]
言語ビジョンモデル(LVM)は、2次元(2次元)コンピュータビジョンタスクにおいて、既存のステート・オブ・ザ・アート(SOTA)を上回っている。
3Dデータを表す代表的なフォーマットであるポイントクラウドに関して、LVMは重大な課題に直面している。
本研究の目的は,1)球面投影による接地SAMを3次元から2次元への移動に適用し,2)合成データを用いてその有効性を評価することである。
論文 参考訳(メタデータ) (2024-04-15T16:56:58Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - GI-NNet \& RGI-NNet: Development of Robotic Grasp Pose Models, Trainable
with Large as well as Limited Labelled Training Datasets, under supervised
and semi supervised paradigms [0.0]
私たちは、ロボットが適切な把握を素早く生成し実行することを学ぶのを助けるために、ディープラーニング技術を使用します。
我々は、見えない物体だけでなく、見えない物体にも対足ロボットの把握を生成できるジェネレーティブ・インセプション・ニューラル・ニューラルネットワーク(GI-NNet)モデルを開発した。
論文 参考訳(メタデータ) (2021-07-15T16:55:49Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。