論文の概要: Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2504.05599v2
- Date: Mon, 09 Jun 2025 11:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.005102
- Title: Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought
- Title(参考訳): スカイワークR1V:チェーン・オブ・サートによるマルチモーダル推論のパイオニア化
- Authors: Yi Peng, Peiyu Wang, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou,
- Abstract要約: 本稿では,R1系列のLarge Language Model (LLM) を拡張したマルチモーダル推論モデルであるSkywork R1Vを紹介する。
本稿では,反復監視ファインチューニング(SFT)とグループ相対政策最適化(GRPO)を組み合わせたハイブリッド最適化手法を提案する。
実験的な評価では、Skywork R1Vは38Bのパラメータしか持たず、MMMUベンチマークで69.0、MathVistaで67.5のスコアを得た。
- 参考スコア(独自算出の注目度): 14.63055969402332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Skywork R1V, a multimodal reasoning model extending the an R1-series Large language models (LLM) to visual modalities via an efficient multimodal transfer method. Leveraging a lightweight visual projector, Skywork R1V facilitates seamless multimodal adaptation without necessitating retraining of either the foundational language model or the vision encoder. To strengthen visual-text alignment, we propose a hybrid optimization strategy that combines Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), significantly enhancing cross-modal integration efficiency. Additionally, we introduce an adaptive-length Chain-of-Thought distillation approach for reasoning data generation. This approach dynamically optimizes reasoning chain lengths, thereby enhancing inference efficiency and preventing excessive reasoning overthinking. Empirical evaluations demonstrate that Skywork R1V, with only 38B parameters, delivers competitive performance, achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista. Meanwhile, it maintains robust textual reasoning performance, evidenced by impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model weights have been publicly released to promote openness and reproducibility.
- Abstract(参考訳): 本稿では,R1系列のLarge Language Model (LLM) を拡張したマルチモーダル推論モデルであるSkywork R1Vを紹介する。
軽量なビジュアルプロジェクタを活用することで、Skywork R1Vは、基礎言語モデルやビジョンエンコーダのトレーニングを必要とせずに、シームレスなマルチモーダル適応を実現する。
視覚的テキストアライメントを強化するために,反復監視細調整(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせたハイブリッド最適化手法を提案する。
さらに,データ生成の推論に適応長のChain-of-Thought蒸留手法を導入する。
このアプローチは推論チェーン長を動的に最適化し、推論効率を高め、過剰な推論の過度な再考を防ぐ。
実験的な評価では、Skywork R1Vは38Bのパラメータしか持たず、MMMUベンチマークで69.0、MathVistaで67.5のスコアを得た。
一方、AIMEでは72.0、MATH500では94.0という印象的なスコアで証明された、堅牢なテキスト推論性能を維持している。
スカイワーク R1Vモデルは開放性と再現性を促進するために公開された。
関連論文リスト
- Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning [17.233735911531117]
次世代マルチモーダル推論モデルであるSkywork R1V2を提案する。
コアとなるR1V2では、ハイブリッド強化学習パラダイムが導入されている。
論文 参考訳(メタデータ) (2025-04-23T12:24:10Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - ReasoningV: Efficient Verilog Code Generation with Adaptive Hybrid Reasoning Model [7.798551697095774]
ReasoningVは、訓練された内在能力と動的推論適応を統合した、Verilogコード生成のための新しいモデルである。
ReasoningV-5Kは5,000個の機能検証済みインスタンスの高品質なデータセットで、PiraNetサンプルの多次元フィルタリングによる推論パスを生成する。
VerilogEval- humanに対するパス@1精度57.8%のReasoningVの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-04-20T10:16:59Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。
本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2229964736678]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Self-Supervised Visual Preference Alignment [21.552415796397206]
本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。
我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。
イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。
論文 参考訳(メタデータ) (2024-04-16T12:19:54Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。