論文の概要: DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.26038v1
- Date: Mon, 25 May 2026 17:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.534188
- Title: DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models
- Title(参考訳): DRScaffold:軽量ビジョン言語モデルにおけるDense-Scene Reasoningの強化
- Authors: Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li, Yulun Zhang,
- Abstract要約: 軽量ビジョン言語モデルは標準ベンチマークで競合するが、密集したシーンの推論で体系的に失敗する。
既存の訓練信号は、推論ステップと基礎となる視覚的実体と関係の間に明確な根拠を与えない。
DRScaffoldは、監督対象を4つの因果的に順序付けられた段階に分解する教師付き微調整フレームワークである。
- 参考スコア(独自算出の注目度): 26.04658606366031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lightweight vision-language models perform competitively on standard benchmarks yet fail systematically in dense-scene reasoning, where multiple objects, attributes, and relations must be jointly grounded and resolved through multi-step inference. Such capability is critical for real-world applications where models must reliably interpret cluttered environments. Yet existing training signals provide no explicit grounding between reasoning steps and the underlying visual entities and relations, leaving lightweight models free to generate fluent but visually unanchored reasoning chains. To address this gap, we first introduce DRBench, a benchmark of 14,573 questions across 2,943 images, organized into five task categories spanning three progressive reasoning layers. Building on DRBench, we propose DRScaffold, a supervised fine-tuning framework that decomposes the supervision target into four causally ordered stages, enforcing grounded reasoning without architectural modification. Experiments on three lightweight VLMs demonstrate substantial gains on DRBench while preserving or improving performance on general-purpose benchmarks. Notably, Qwen2.5-VL-3B trained with DRScaffold surpasses the frozen Qwen2.5-VL-32B on DRBench, demonstrating that structured supervision can substitute for a significant portion of model scale in dense-scene reasoning. Our code and models are available at https://github.com/irene-shi/DRScaffold .
- Abstract(参考訳): 軽量視覚言語モデルは、標準的なベンチマーク上で競争的に機能するが、複数のオブジェクト、属性、関係性が複数ステップの推論によって共同で基底化され解決されなければならないような、密接なシーンの推論では体系的に失敗する。
このような能力は、モデルが乱雑な環境を確実に解釈する必要がある現実世界のアプリケーションにとって重要である。
しかし、既存のトレーニング信号は、推論ステップと基礎となる視覚的実体と関係の間に明確な基盤を提供しておらず、軽量なモデルを残して、流動的だが視覚的でない推論チェーンを生成する。
DRBenchは、2,943枚の画像にまたがる14,573の質問のベンチマークであり、3つのプログレッシブ推論層にまたがる5つのタスクカテゴリで構成されている。
DRBench 上に構築した DRScaffold は,監視対象を4つの因果的に順序づけられた段階に分解し,設計上の変更を伴わずに基礎的な推論を行う,教師付き微調整フレームワークである。
3つの軽量VLMの実験は、汎用ベンチマークの性能を維持したり改善したりしながら、DRBenchでかなりの向上を示した。
特に、DRScaffoldで訓練されたQwen2.5-VL-3Bは、DRBench上の凍結したQwen2.5-VL-32Bを超越し、構造的監督が密集世におけるモデルスケールのかなりの部分に取って代わることを示した。
私たちのコードとモデルはhttps://github.com/irene-shi/DRScaffold で利用可能です。
関連論文リスト
- GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations [19.262982037123447]
視覚言語モデル(VLM)は、他の視覚的推論タスクよりも精度がかなり低いため、タスクのカウントにおいて持続的な幻覚を示す。
物体検出モデルから空間的接地を明示的に拡張して幻覚を緩和するフレームワークであるGroundCountを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:04:30Z) - GuardReasoner-Omni: A Reasoning-based Multi-modal Guardrail for Text, Image, and Video [38.35856368247741]
GuardReasoner-Omniは、テキスト、画像、ビデオデータを適度に扱うために設計されたガードレールモデルである。
これら3つのモードにまたがる148万のサンプルからなる総合的なトレーニングコーパスを構築した。
トレーニングパイプラインは、2段階のパラダイムに従って、決定を下す前に意図的にモデルにインセンティブを与えます。
論文 参考訳(メタデータ) (2026-02-03T09:56:20Z) - Why not Collaborative Filtering in Dual View? Bridging Sparse and Dense Models [17.01882282913444]
協調フィルタリングは現代のレコメンデーターシステムの基盤となっている。
密埋め込みのセマンティック表現性とスパース相互作用パターンの構造的信頼性を統合した統合フレームワークSaD(Sparse and Dense)を提案する。
これら2つの視点を整合させることで、より優れたグローバルSNRが得られることを示す。
論文 参考訳(メタデータ) (2026-01-14T08:47:07Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision [24.162895928364062]
トポロジを意識した推論のためのトレーニングフレームワークSTELAR-Visionを紹介する。
コアとなるTopoAugは、さまざまなトポロジカルな構造でトレーニングを充実させる合成データパイプラインだ。
MATH-VとVLM-S2Hでは、STELAR-Visionはベースモデルの精度を9.7%向上し、より大型のQwen2VL-72B-インストラクションを7.3%上回っている。
論文 参考訳(メタデータ) (2025-08-12T07:27:50Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。