論文の概要: SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2511.00054v1
- Date: Tue, 28 Oct 2025 16:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.54681
- Title: SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation
- Title(参考訳): SpaceTraceGen: 効率的なVLM空間共鳴蒸留のための高忠実性トレース
- Authors: Gio Huh, Dhruv Sheth, Rayhan Zirvi, Frank Xiao,
- Abstract要約: SpatialTraceGenは、大規模な教師モデルの推論プロセスを、マルチホップ、マルチツールの推論トレースの高品質なデータセットに抽出するフレームワークである。
重要なイノベーションは自動検証であり、各推論ステップの忠実さを確実に保証します。
CLEVR-Humansベンチマークでは、この検証済みのプロセスにより、トレースの平均品質スコアが17%向上し、品質のばらつきが40%以上減少する。
- 参考スコア(独自算出の注目度): 0.8749675983608171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) excel in many areas, they struggle with complex spatial reasoning, which requires problem decomposition and strategic tool use. Fine-tuning smaller, more deployable models offers an efficient path to strong performance, but this is hampered by a major bottleneck: the absence of high-quality, step-by-step reasoning data. To address this data-efficiency gap, we introduce SpatialTraceGen, a framework to distill the reasoning processes of a large teacher model into a high-quality dataset of multi-hop, multi-tool reasoning traces. A key innovation is our automated Verifier, which scalably ensures the fidelity of each reasoning step, providing a cost-effective alternative to manual human annotation. On the CLEVR-Humans benchmark, this verifier-guided process improves the average quality score of traces by 17\% while reducing quality variance by over 40\%. SpatialTraceGen delivers a dataset of expert traces, providing the structured, step-by-step examples of tool use necessary for effective fine-tuning and sample-efficient offline reinforcement learning.
- Abstract(参考訳): VLM(Vision-Language Models)は多くの分野で優れているが、複雑な空間推論に苦しむため、問題分解と戦略ツールの使用が必要である。
微調整の小さな、よりデプロイ可能なモデルは、強力なパフォーマンスへの効率的なパスを提供するが、これは、高品質でステップバイステップの推論データがないという大きなボトルネックによって妨げられている。
このデータ効率ギャップに対処するため,大規模教師モデルの推論過程をマルチホップ・マルチツール推論トレースの高品質なデータセットに抽出するフレームワークであるSpatialTraceGenを紹介した。
重要なイノベーションは自動検証です。これは、手作業によるアノテーションに代わるコスト効率のよい代替手段として、各推論ステップの忠実さを確実に保証します。
CLEVR-Humans のベンチマークでは、この検証済みのプロセスは、トレースの平均品質スコアを 17 % 改善し、品質のばらつきを 40 % 以上削減する。
SpatialTraceGenはエキスパートトレースのデータセットを提供し、効果的な微調整とサンプル効率のよいオフライン強化学習に必要なツールの構造化されたステップバイステップの例を提供する。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Optimizing Active Learning in Vision-Language Models via Parameter-Efficient Uncertainty Calibration [6.7181844004432385]
本稿では,アクティブラーニングフレームワークに不確実な校正損失を組み込んだパラメータ効率学習手法を提案する。
提案手法は,複雑な特徴量に基づくサンプリング手法の性能に適合し,超越できることを実証する。
論文 参考訳(メタデータ) (2025-07-29T06:08:28Z) - SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning [29.14330314090061]
模倣学習は、人間のデモンストレーションから多様な行動の獲得を可能にすることで、ロボット能力を向上させる。
既存のロボットキュレーションアプローチは、高価な手作業によるアノテーションに依存し、粗い粒度でキュレーションを行う。
本稿では、低品質な状態-動作ペアをフィルタリングして模倣学習ポリシーの性能を向上させる自己教師型データキュレーションフレームワークであるSCIZORを紹介する。
論文 参考訳(メタデータ) (2025-05-28T17:45:05Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。