論文の概要: No Labels, No Problem: Training Visual Reasoners with Multimodal Verifiers
- arxiv url: http://arxiv.org/abs/2512.08889v1
- Date: Tue, 09 Dec 2025 18:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.090578
- Title: No Labels, No Problem: Training Visual Reasoners with Multimodal Verifiers
- Title(参考訳): ラベルなし、問題なし:マルチモーダル検証によるビジュアルリゾネータのトレーニング
- Authors: Damiano Marsili, Georgia Gkioxari,
- Abstract要約: 推論とグラウンド化の両方を改善したアノテーションなしのトレーニングフレームワークを提案する。
LLM検証器は強化学習によりLCM推論を洗練し、VLM検証器は自動化された強陰性採掘により視覚的接地を強化する。
この設計は、空間的なクエリを単純なサブタスクに分解する高度な言語のみの推論モデルと、パフォーマンスの高いVLM批評家によって改善された強力なビジョンスペシャリストモデルという、現代のAIシステムの強みを組み合わせたものだ。
- 参考スコア(独自算出の注目度): 8.078150719944466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning is challenging, requiring both precise object grounding and understanding complex spatial relationships. Existing methods fall into two camps: language-only chain-of-thought approaches, which demand large-scale (image, query, answer) supervision, and program-synthesis approaches which use pre-trained models and avoid training, but suffer from flawed logic and erroneous grounding. We propose an annotation-free training framework that improves both reasoning and grounding. Our framework uses AI-powered verifiers: an LLM verifier refines LLM reasoning via reinforcement learning, while a VLM verifier strengthens visual grounding through automated hard-negative mining, eliminating the need for ground truth labels. This design combines the strengths of modern AI systems: advanced language-only reasoning models for decomposing spatial queries into simpler subtasks, and strong vision specialist models improved via performant VLM critics. We evaluate our approach across diverse spatial reasoning tasks, and show that our method improves visual reasoning and surpasses open-source and proprietary models, while with our improved visual grounding model we further outperform recent text-only visual reasoning methods. Project webpage: https://glab-caltech.github.io/valor/
- Abstract(参考訳): 視覚的推論は困難であり、正確な物体の接地と複雑な空間的関係の理解の両方を必要とする。
既存の手法は、大規模(イメージ、クエリ、回答)の監視を必要とする言語のみのチェーン・オブ・シントアプローチと、事前訓練されたモデルを使用してトレーニングを避けるプログラム合成アプローチの2つに分類される。
推論とグラウンド化の両方を改善したアノテーションなしのトレーニングフレームワークを提案する。
LLM検証器は強化学習によりLLM推論を洗練し、VLM検証器は自動化された強陰性採掘による視覚的接地を強化し、接地真理ラベルの必要性をなくす。
この設計は、空間的なクエリを単純なサブタスクに分解する高度な言語のみの推論モデルと、パフォーマンスの高いVLM批評家によって改善された強力なビジョンスペシャリストモデルという、現代のAIシステムの強みを組み合わせたものだ。
多様な空間的推論タスクにまたがってアプローチを評価し,我々の手法が視覚的推論を改善し,オープンソースおよびプロプライエタリなモデルを上回ることを示すとともに,視覚的グラウンドモデルの改善により,最近のテキストのみの視覚的推論手法よりも優れていることを示す。
プロジェクトWebページ: https://glab-caltech.github.io/valor/
関連論文リスト
- Context Matters: Learning Global Semantics via Object-Centric Representation [8.195437248815802]
ビジョンモデルは、コンテキスト内学習において同等の進歩を見せていない。
このギャップは、現在の視覚変換器(ViT)トレーニングスキームにおける意味的および文脈的ガイダンスの欠如に起因する可能性がある、と我々は主張する。
対象」を「単語」の視覚的等価性として直接モデル化し、そのモデルに視覚要素間のグローバルな文脈と意味を学習させることを提案する。
論文 参考訳(メタデータ) (2025-10-07T08:33:36Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs [23.69973859198496]
MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。
主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。
MMed-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
論文 参考訳(メタデータ) (2025-06-22T05:11:46Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。