Fugu-MT 論文翻訳(概要): Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation

論文の概要: Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation

arxiv url: http://arxiv.org/abs/2606.06076v2
Date: Sat, 06 Jun 2026 12:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:04.990402
Title: Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation
Title（参考訳）: モダリティ・ギャップ・アウェア・セルフ蒸留によるシンボル状態からの視覚空間計画学習
Authors: Haocheng Luo, Jiahui Liu, Ruicheng Zhang, Zhizhou Zhong, Jiaqi Huang, Zunnan Xu, Quan Shi, Jun Zhou, Xiu Li,
Abstract要約: MGSDは2段階のモダリティを意識した自己蒸留フレームワークである。 MGSDは4Bと8Bの両方のバックボーンの視覚的計画を改善する。これらの結果は、モダリティを意識した自己蒸留は、モデルが実行可能な状態をどのように知覚するかだけでなく、推論された構造をどう計画するかも改善することを示している。
参考スコア（独自算出の注目度）: 22.295053408459506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While vision-language models excel at general multimodal understanding, they still struggle with visual spatial planning. We attribute this to a perception-reasoning modality gap: visual planning requires models to infer latent state structures from pixels and then reason over the recovered structure to produce valid actions, whereas symbolic planning directly leverages explicit objects and constraints. This creates dual bottlenecks in visual state recovery and multi-step planning. To address this, we propose MGSD, a two-stage modality-gap-aware self-distillation framework. First, a cold-start grounding stage equips the visual student with reliable state representations, minimizing early perception noise. Second, a privileged teacher transfers planning capabilities via on-policy distillation, using explicit symbolic states to supervise the student's own visual rollout prefixes. Crucially, symbolic data is used strictly during training, leaving inference purely visual. Experiments on visual planning benchmarks show that MGSD consistently improves visual planning across both 4B and 8B backbones, raising the macro average by 19.3% and 18.4%, respectively. The resulting models narrow the gap to symbolic-input upper bounds, while ablations and diagnostics confirm that the improvement comes from both visual state recovery and optimal-path reasoning. These results suggest that modality-gap-aware self-distillation improves not only how models perceive actionable states, but also how they plan over the inferred structure. Code is available at https://github.com/Oranger-l/MGSD.
Abstract（参考訳）: 視覚言語モデルは一般的なマルチモーダル理解において優れているが、視覚空間計画に苦慮している。視覚的な計画には、ピクセルから遅延状態構造を推論し、回復した構造を推論して有効なアクションを生成するモデルが必要であり、一方、象徴的な計画では、明示的なオブジェクトや制約を直接活用する。これにより、視覚状態の回復と多段階計画において、二重のボトルネックが生じる。そこで我々は,2段階のモダリティを意識した自己蒸留フレームワークMGSDを提案する。まず、コールドスタートグラウンドステージは、視覚学生に信頼性のある状態表現を装備し、早期の知覚ノイズを最小限に抑える。第二に、特権を持つ教師は、学生自身の視覚的ロールアウトプレフィックスを監督するために、明示的な象徴的状態を使用して、オンライン蒸留を通じて計画能力を伝達する。重要なことに、象徴的なデータは訓練中に厳密に使われ、推論は純粋に視覚的に残される。ビジュアルプランニングベンチマークの実験では、MGSDは4Bと8Bの両方のバックボーンの視覚的プランニングを一貫して改善し、マクロ平均を19.3%、マクロ平均を18.4%向上させた。得られたモデルは、ギャップをシンボリックインプットの上界に狭め、一方、改善は視覚状態回復と最適経路推論の両方から生じることを確認する。これらの結果は、モダリティを意識した自己蒸留は、モデルが実行可能な状態をどのように知覚するかだけでなく、推論された構造をどう計画するかも改善することを示している。コードはhttps://github.com/Oranger-l/MGSDで入手できる。

関連論文リスト

Unveiling the Visual Counting Bottleneck in Vision-Language Models [49.591496870141846]
この研究は視覚的数え上げを3つの認知段階(視覚的識別、大きさ認識、象徴的マッピング)に分解する。合成Go基板と線形プローブを用いて、視覚的バックボーンは、外挿系にしっかりと、線形に分離可能な量表現を保っていることを示す。我々は、崩壊をシンボルマッピングステージに向ける。そこでは、モデルがシンボルトークンに有効な視覚的大きさを投影することに失敗する。
論文参考訳（メタデータ） (2026-05-28T16:20:29Z)
Focus-then-Context: Subject-Centric Progressive Visual Token Reduction for Vision-Language Models [16.39553879497114]
SPprunerは主題中心のプログレッシブ・リダクション・パラダイムである。人間の視覚知覚システムのtextitFocus-then-Contextメカニズムをエミュレートする。視覚入力の高忠実度表現を保証するために、包括的視覚被写体スペクトルを掘削することができる。
論文参考訳（メタデータ） (2026-05-20T09:37:53Z)
Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation [31.028607494171336]
VLM(Vision-Language Models)は、物体の幻覚によってしばしば弱められる。トレーニング不要な推論フレームワークであるPND(Positive-and-Negative Decoding)を紹介する。 PNDは、視覚的忠実性を強制するために、デコードプロセスに直接介入する。
論文参考訳（メタデータ） (2026-04-27T12:23:00Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文参考訳（メタデータ） (2025-08-27T08:01:03Z)
Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning [36.131648635051334]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。我々のフレームワークは、未確認のタスクトラジェクトリ、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを示します。
論文参考訳（メタデータ） (2023-10-05T05:41:21Z)
Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。我々は,グラフ推論機械という診断モデルを開発した。本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文参考訳（メタデータ） (2020-12-21T18:59:28Z)
Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文参考訳（メタデータ） (2020-09-25T19:07:00Z)
Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。過去30年間に様々な評価方法が提案されてきた。注意変動を記述するための重力モデル(GRAV)を提案する。
論文参考訳（メタデータ） (2020-09-15T10:12:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。