論文の概要: Improved Visual-Spatial Reasoning via R1-Zero-Like Training
- arxiv url: http://arxiv.org/abs/2504.00883v1
- Date: Tue, 01 Apr 2025 15:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:35.157914
- Title: Improved Visual-Spatial Reasoning via R1-Zero-Like Training
- Title(参考訳): R1-Zeroライクなトレーニングによる視覚空間推論の改善
- Authors: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng,
- Abstract要約: ビデオ視覚空間インテリジェンス(VSI)は、マルチモーダル大言語モデル(MLLM)の最も重要な推論能力の1つである。
この研究は、R1-Zeroライクなトレーニングを通してMLLMの視覚空間的推論を改善するための、最初の詳細な研究を行う。
- 参考スコア(独自算出の注目度): 18.61987706753493
- License:
- Abstract: Increasing attention has been placed on improving the reasoning capacities of multi-modal large language models (MLLMs). As the cornerstone for AI agents that function in the physical realm, video-based visual-spatial intelligence (VSI) emerges as one of the most pivotal reasoning capabilities of MLLMs. This work conducts a first, in-depth study on improving the visual-spatial reasoning of MLLMs via R1-Zero-like training. Technically, we first identify that the visual-spatial reasoning capacities of small- to medium-sized Qwen2-VL models cannot be activated via Chain of Thought (CoT) prompts. We then incorporate GRPO training for improved visual-spatial reasoning, using the carefully curated VSI-100k dataset, following DeepSeek-R1-Zero. During the investigation, we identify the necessity to keep the KL penalty (even with a small value) in GRPO. With just 120 GPU hours, our vsGRPO-2B model, fine-tuned from Qwen2-VL-2B, can outperform the base model by 12.1% and surpass GPT-4o. Moreover, our vsGRPO-7B model, fine-tuned from Qwen2-VL-7B, achieves performance comparable to that of the best open-source model LLaVA-NeXT-Video-72B. Additionally, we compare vsGRPO to supervised fine-tuning and direct preference optimization baselines and observe strong performance superiority. The code and dataset will be available soon.
- Abstract(参考訳): MLLM(Multi-modal large language model)の推論能力の向上に注目が集まっている。
物理的な領域で機能するAIエージェントの基盤として、ビデオベースの視覚空間知能(VSI)がMLLMの最も重要な推論能力の1つとして現れる。
この研究は、R1-Zeroライクなトレーニングを通してMLLMの視覚空間的推論を改善するための、最初の詳細な研究を行う。
技術的には、我々はまず、小型から中規模のQwen2-VLモデルの視覚空間的推論能力が、Chain of Thought (CoT)プロンプトを介して活性化できないことを確認した。
次に、DeepSeek-R1-Zeroに従って慎重にキュレートされたVSI-100kデータセットを使用して、GRPOトレーニングを組み込んで視覚空間推論を改善する。
調査では, GRPOにKLのペナルティを(少ない値でも)維持する必要性を確認した。
わずか120GPU時間で、Qwen2-VL-2Bから微調整された我々の vsGRPO-2B モデルは、ベースモデルを12.1%上回り、GPT-4oを上回っます。
さらに、Qwen2-VL-7Bを微調整した vsGRPO-7B モデルは、最高のオープンソースモデルである LLaVA-NeXT-Video-72B に匹敵する性能を実現する。
さらに、VSGRPOを教師付き微調整および直接選好最適化ベースラインと比較し、高い性能優位性を示す。
コードとデータセットは近く提供される。
関連論文リスト
- AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs [37.98496239547762]
大きな視覚言語モデルは、オブジェクトやそれらの特性や関係といった詳細を幻覚させる傾向があり、実際のデプロイメントを制限します。
本稿では,LVLMのDPOに基づく最適化のために,CLIP(CLIP-DPO)埋め込みモデルを用いた優先最適化手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T21:56:20Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。