論文の概要: Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs
- arxiv url: http://arxiv.org/abs/2510.21807v1
- Date: Tue, 21 Oct 2025 08:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.902496
- Title: Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs
- Title(参考訳): VLMにおけるマスケード予測による視覚コンテキストの活性化とコモンセンス推論
- Authors: Jiaao Yu, Shenwei Li, Mingjie Han, Yifei Yin, Wenzheng Song, Chenghao Jia, Man Lan,
- Abstract要約: 本稿では,コンテキストとコモンセンスを用いた新しい微調整タスクであるMasked Predictionを導入する。
このタスクは、隠蔽された画像から意味的に意味のあるコンテンツを再構成することで、視覚的コンテキストと常識的推論を統合するようモデルに強制する。
また,先行サンプリングによる強化ファインチューニングというイノベーティブなトレーニング手法も導入する。
- 参考スコア(独自算出の注目度): 9.953258838113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in reasoning models have markedly advanced the reasoning capabilities of large language models, particularly via training on tasks with verifiable rewards. Yet, a significant gap persists in their adaptation to real world multimodal scenarios, most notably, vision language tasks, due to a heavy focus on single modal language settings. While efforts to transplant reinforcement learning techniques from NLP to VLMs have emerged, these approaches often remain confined to perception centric tasks or reduce images to textual summaries, failing to fully exploit visual context and commonsense knowledge, ultimately constraining the generalization of reasoning capabilities across diverse multimodal environments. To address this limitation, we introduce a novel fine tuning task, Masked Prediction via Context and Commonsense, which forces models to integrate visual context and commonsense reasoning by reconstructing semantically meaningful content from occluded images, thereby laying the foundation for generalized reasoning. To systematically evaluate the model performance in generalized reasoning, we developed a specialized evaluation benchmark, MPCC Eval, and employed various fine tuning strategies to guide reasoning. Among these, we introduced an innovative training method, Reinforcement Fine tuning with Prior Sampling, which not only enhances model performance but also improves its generalized reasoning capabilities in OOD and cross task scenarios.
- Abstract(参考訳): 最近の推論モデルにおけるブレークスルーは、特に検証可能な報酬を持つタスクのトレーニングを通じて、大きな言語モデルの推論能力を著しく向上させてきた。
しかし、特に視覚言語タスクは、単一のモーダル言語設定に重きを置いているため、現実のマルチモーダルシナリオへの適応において大きなギャップが持続する。
強化学習技術をNLPからVLMに移植する試みは現れているが、これらのアプローチは認識中心のタスクや画像のテキスト要約に制限されることが多く、視覚的コンテキストと常識知識を完全に活用できず、最終的には多様なマルチモーダル環境における推論能力の一般化を制限している。
この制限に対処するために、我々は、コンテキストとコモンセンスによるマスケ予測という新しい微調整タスクを導入する。これは、隠蔽された画像から意味的に意味のあるコンテンツを再構成することで、モデルに視覚的コンテキストとコモンセンス推論を統合することを強制し、一般化された推論の基礎を築き上げる。
一般化推論におけるモデル性能を体系的に評価するために,特殊評価ベンチマークMPCC Evalを開発した。
そこで我々は,モデル性能を向上するだけでなく,OODおよびクロスタスクシナリオにおける一般化推論能力の向上を図った,革新的なトレーニング手法であるReinforcement Fine tuning with Prior Samplingを導入した。
関連論文リスト
- Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.58344147240552]
我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-26T01:42:38Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning [16.938301925105097]
本稿では,視覚的シーンをテキスト記述に置き換えることで,視覚言語モデルが驚くほど強力な意思決定性能が得られることを示す。
視覚的意思決定のための推論VLMであるPrxis-VLMを提案する。
論文 参考訳(メタデータ) (2025-03-21T09:25:23Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。