論文の概要: Perception-R1: Pioneering Perception Policy with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.07954v1
- Date: Thu, 10 Apr 2025 17:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 15:50:23.237814
- Title: Perception-R1: Pioneering Perception Policy with Reinforcement Learning
- Title(参考訳): 知覚-R1:強化学習による知覚のパイオニア化
- Authors: En Yu, Kangheng Lin, Liang Zhao, Jisheng Yin, Yana Wei, Yuang Peng, Haoran Wei, Jianjian Sun, Chunrui Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Jingyu Wang, Wenbing Tao,
- Abstract要約: 本稿では,MLLMポストトレーニング中にGRPOを用いたスケーラブルなRLフレームワークPerception-R1を提案する。
Qwen2.5-VL-3B-インストラクションでは、Perception-R1はRefCOCO+で+4.2%、PixMo-Countで+17.9%、特にCOCO 2017 valで31.9%のAPを達成した。
- 参考スコア(独自算出の注目度): 68.13805658351944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in MLLM post-training for perception policy learning. While promising, our initial experiments reveal that incorporating a thinking process through RL does not consistently lead to performance gains across all visual perception tasks. This leads us to delve into the essential role of RL in the context of visual perception. In this work, we return to the fundamentals and explore the effects of RL on different perception tasks. We observe that the perceptual complexity is a major factor in determining the effectiveness of RL. We also observe that reward design plays a crucial role in further approching the upper limit of model perception. To leverage these findings, we propose Perception-R1, a scalable RL framework using GRPO during MLLM post-training. With a standard Qwen2.5-VL-3B-Instruct, Perception-R1 achieves +4.2% on RefCOCO+, +17.9% on PixMo-Count, +4.2% on PageOCR, and notably, 31.9% AP on COCO2017 val for the first time, establishing a strong baseline for perception policy learning.
- Abstract(参考訳): DeepSeek-R1の成功に触発されて,MLLM後学習におけるルールベース強化学習(RL)の可能性を探る。
将来性はあるものの、最初の実験では、RLによる思考プロセスの導入は、すべての視覚的知覚タスクにおけるパフォーマンス向上に一貫して結びつくわけではないことが判明した。
これにより、視覚知覚の文脈におけるRLの本質的な役割を掘り下げることができます。
本研究では,基礎に戻り,RLが異なる知覚タスクに与える影響について検討する。
我々は,RLの有効性を決定する上で,知覚複雑性が重要な要因であることが観察された。
また,報酬設計がモデル知覚の上限をさらに高める上で重要な役割を担っていることも確認した。
これらの知見を活用するために,MLLM後トレーニング中にGRPOを用いたスケーラブルなRLフレームワークPerception-R1を提案する。
標準的なQwen2.5-VL-3B-インストラクションでは、Perception-R1はRefCOCO+で+4.2%、PixMo-Countで+17.9%、PageOCRで+4.2%、特にCOCO2017 valで31.9%APを初めて達成し、認知ポリシー学習の強力なベースラインを確立した。
関連論文リスト
- RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。
RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-19T17:40:04Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - One Framework to Rule Them All: Unifying RL-Based and RL-Free Methods in RLHF [2.1212179660694104]
本稿では,RLHF(Reinforcement Learning from Human Feedback)とLRM(Large Reasoning Models)に対処するために,RLベースおよびRLフリーの手法について検討する。
我々は、ニューラルネットワークによる帯域予測の観点から、いくつかのRLベースおよびRLフリーアルゴリズムを再解釈する。
これにより、完全なRLコンテキスト内で標準RLHFの目的を詳細に導出し、ニューラルネットワークのバンドイット予測と等価性を示す。
論文 参考訳(メタデータ) (2025-03-25T10:23:26Z) - Think or Not Think: A Study of Explicit Thinking inRule-Based Visual Reinforcement Fine-Tuning [8.665713419757061]
マルチモーダル大言語モデル(MLLM)を用いた視覚分類のためのルールベース強化学習(RL)の微調整と思考プロセスの役割について検討した。
等式精度の報酬を利用して微調整時のモデル思考を最小限に抑える新しいアプローチである textitNo-Thinking-RL を導入する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。