論文の概要: Stitch and Tell: A Structured Multimodal Data Augmentation Method for Spatial Understanding
- arxiv url: http://arxiv.org/abs/2512.06769v1
- Date: Sun, 07 Dec 2025 10:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.517323
- Title: Stitch and Tell: A Structured Multimodal Data Augmentation Method for Spatial Understanding
- Title(参考訳): Stitch and Tell:空間理解のための構造化マルチモーダルデータ拡張手法
- Authors: Hang Yin, Xiaomin He, PeiWen Yuan, Yiwei Li, Jiayi Shi, Wenxiao Fan, Shaoxiong Feng, Kan Li,
- Abstract要約: 既存の視覚言語モデルは、しばしば空間幻覚に悩まされる。
$textStitchとTell$は、構造化された空間的監視をデータに注入する。
SiTeは、空間軸に沿って画像を縫合することで、縫合された画像テキストペアを構成する。
- 参考スコア(独自算出の注目度): 23.444127854888578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-language models often suffer from spatial hallucinations, i.e., generating incorrect descriptions about the relative positions of objects in an image. We argue that this problem mainly stems from the asymmetric properties between images and text. To enrich the spatial understanding ability of vision-language models, we propose a simple, annotation-free, plug-and-play method named $\text{Stitch and Tell}$ (abbreviated as SiTe), which injects structured spatial supervision into data. It constructs stitched image-text pairs by stitching images along a spatial axis and generating spatially-aware captions or question answer pairs based on the layout of stitched image, without relying on costly advanced models or human involvement. We evaluate SiTe across three architectures including LLaVA-v1.5-7B, LLaVA-Qwen2-1.5B and HALVA-7B, two training datasets, and eight benchmarks. Experiments show that SiTe improves spatial understanding tasks such as $\text{MME}_{\text{Position}}$ (+5.50%) and Spatial-MM (+4.19%), while maintaining or improving performance on general vision-language benchmarks including COCO-QA (+1.02%) and MMBench (+4.76%). Our findings suggest that explicitly injecting spatially-aware structure into training data offers an effective way to mitigate spatial hallucinations and improve spatial understanding, while preserving general vision-language capabilities.
- Abstract(参考訳): 既存の視覚言語モデルは、しばしば空間幻覚に悩まされる。
この問題は、主に画像とテキスト間の非対称性に起因すると論じる。
視覚言語モデルの空間的理解能力を高めるために、構造化空間的監視をデータに注入する、$\text{Stitch and Tell}$(SiTe)というシンプルな、アノテーションのないプラグアンドプレイ手法を提案する。
空間軸に沿って画像を縫い付け、コストのかかるモデルや人間の関与に頼ることなく、縫い合わせ画像のレイアウトに基づいて、空間的に認識されたキャプションや質問応答ペアを生成することにより、縫い合わせ画像テキストペアを構築する。
LLaVA-v1.5-7B, LLaVA-Qwen2-1.5B, HALVA-7B, 2つのトレーニングデータセット, 8つのベンチマークでSiTeを評価する。
実験の結果、SiTeは$\text{MME}_{\text{Position}}$ (+5.50%) やSpatial-MM (+4.19%) などの空間理解タスクを改善し、COCO-QA (+1.02%) やMMBench (+4.76%) といった一般的な視覚言語ベンチマークのパフォーマンスを維持または改善している。
本研究は,空間認識構造をトレーニングデータに明示的に注入することにより,空間幻覚を緩和し,空間理解を改善するとともに,一般視覚言語能力の維持に有効であることが示唆された。
関連論文リスト
- Visual Spatial Tuning [98.96397681943255]
視覚空間調整(VST)は視覚言語モデル(VLM)を人間に似た視覚空間能力で培養する包括的フレームワークである。
特に,基礎的な空間知識を構築するための微調整を指導し,さらに空間推論能力を向上させるための強化学習を行う。
その結果、ビジョン・ランゲージ・アクションモデルが空間的チューニングのパラダイムによって大幅に拡張され、より物理的に接地されたAIへの道が開けることが判明した。
論文 参考訳(メタデータ) (2025-11-07T18:59:16Z) - CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP [26.827036116024914]
textscCoPatchはゼロショットRISフレームワークで、テキストと画像の両方の空間表現を強化する。
また,textscCoPatchは, RefCOCO, RefCOCO+, RefCOCOg, PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間接地を,追加の訓練を必要とせずに大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-27T04:12:10Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。