論文の概要: From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs
- arxiv url: http://arxiv.org/abs/2511.11440v1
- Date: Fri, 14 Nov 2025 16:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.712049
- Title: From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs
- Title(参考訳): 合成シーンから実演へ:VLMにおける空間推論の強化
- Authors: Massimo Rizzoli, Simone Alghisi, Seyed Mahed Mousavi, Giuseppe Riccardi,
- Abstract要約: ファインチューニング・ビジョン・ランゲージ・モデル(VLM)は、アドホックなデータ収集と実世界のシーンのアノテーションに続いて、パフォーマンスを改善するための一般的な戦略である。
我々は、データの生成とそのアノテーションを制御し、バイアス、分散不均衡、アノテーションエラーを回避します。
我々は、最先端のVLMを微調整し、絶対位置タスク上の実世界のデータに対する性能伝達性を評価する。
- 参考スコア(独自算出の注目度): 1.5282767384702272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Vision-Language Models (VLMs) is a common strategy to improve performance following an ad-hoc data collection and annotation of real-world scenes. However, this process is often prone to biases, errors, and distribution imbalance, resulting in overfitting and imbalanced performance. Although a few studies have tried to address this problem by generating synthetic data, they lacked control over distribution bias and annotation quality. To address these challenges, we redesign the fine-tuning process in two ways. First, we control the generation of data and its annotations, ensuring it is free from bias, distribution imbalance, and annotation errors. We automatically construct the dataset by comprehensively sampling objects' attributes, including color, shape, size, and position within the scene. Secondly, using this annotated dataset, we fine-tune state-of-the-art VLMs and assess performance transferability to real-world data on the absolute position task. We conduct exhaustive evaluations on both synthetic and real-world benchmarks. Our experiments reveal two key findings: 1) fine-tuning on balanced synthetic data yields uniform performance across the visual scene and mitigates common biases; and 2) fine-tuning on synthetic stimuli significantly improves performance on real-world data (COCO), outperforming models fine-tuned in the matched setting.
- Abstract(参考訳): ファインチューニング・ビジョン・ランゲージ・モデル(VLM)は、アドホックなデータ収集と実世界のシーンのアノテーションに続いて、パフォーマンスを改善するための一般的な戦略である。
しかしながら、このプロセスはバイアスやエラー、分散の不均衡が原因で、過度に適合し、パフォーマンスが不均衡になることが多い。
合成データを生成することでこの問題に対処しようとする研究はいくつかあるが、分布バイアスとアノテーションの品質に対する制御が欠如している。
これらの課題に対処するため、我々は微調整プロセスを2つの方法で再設計した。
まず、データの生成とそのアノテーションを制御し、バイアス、分散不均衡、アノテーションエラーを回避します。
シーン内の色、形状、サイズ、位置など、オブジェクトの属性を包括的にサンプリングすることで、データセットを自動的に構築する。
次に、この注釈付きデータセットを用いて、最先端のVLMを微調整し、絶対位置タスク上の実世界のデータに対する性能伝達性を評価する。
人工ベンチマークと実世界のベンチマークの両方で徹底的な評価を行う。
私たちの実験では2つの重要な発見がありました。
1)バランスの取れた合成データの微調整は、視覚シーン全体で均一なパフォーマンスをもたらし、共通のバイアスを緩和します。
2) 合成刺激の微調整は実世界データ(COCO)の性能を著しく向上させ, 一致した環境での微調整モデルよりも優れていた。
関連論文リスト
- Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
textbfAuto textbfCherry-textbfPicker (ACP)を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。