論文の概要: Reinforcement Learning in Vision: A Survey
- arxiv url: http://arxiv.org/abs/2508.08189v1
- Date: Mon, 11 Aug 2025 17:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.227579
- Title: Reinforcement Learning in Vision: A Survey
- Title(参考訳): 視覚における強化学習 : 調査
- Authors: Weijia Wu, Chen Gao, Joya Chen, Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou,
- Abstract要約: この調査は、この分野の批判的かつ最新の合成を提供する。
まず、視覚的RL問題を定式化し、政策最適化戦略の進化を辿る。
カリキュラム駆動型トレーニング、嗜好整合拡散、統一報酬モデリングなどのトレンドを蒸留する。
- 参考スコア(独自算出の注目度): 36.820183535103695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances at the intersection of reinforcement learning (RL) and visual intelligence have enabled agents that not only perceive complex visual scenes but also reason, generate, and act within them. This survey offers a critical and up-to-date synthesis of the field. We first formalize visual RL problems and trace the evolution of policy-optimization strategies from RLHF to verifiable reward paradigms, and from Proximal Policy Optimization to Group Relative Policy Optimization. We then organize more than 200 representative works into four thematic pillars: multi-modal large language models, visual generation, unified model frameworks, and vision-language-action models. For each pillar we examine algorithmic design, reward engineering, benchmark progress, and we distill trends such as curriculum-driven training, preference-aligned diffusion, and unified reward modeling. Finally, we review evaluation protocols spanning set-level fidelity, sample-level preference, and state-level stability, and we identify open challenges that include sample efficiency, generalization, and safe deployment. Our goal is to provide researchers and practitioners with a coherent map of the rapidly expanding landscape of visual RL and to highlight promising directions for future inquiry. Resources are available at: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
- Abstract(参考訳): 強化学習(RL)と視覚知能の交差における最近の進歩は、複雑な視覚シーンだけでなく、その内部の理由、生成、行動を認識するエージェントを可能にしている。
この調査は、この分野の批判的かつ最新の合成を提供する。
まず、視覚的RL問題を定式化し、RLHFから検証可能な報酬パラダイム、および近似政策最適化からグループ相対政策最適化まで、政策最適化戦略の進化を辿る。
次に、200以上の代表的作品を4つのテーマの柱にまとめる。多モーダルな言語モデル、視覚生成、統一されたモデルフレームワーク、ビジョン言語アクションモデルである。
各柱について,アルゴリズム設計,報酬工学,ベンチマークの進展,カリキュラム駆動トレーニング,選好適応拡散,統一報酬モデリングなどの傾向を考察する。
最後に, 設定レベルの忠実度, サンプルレベルの嗜好, 状態レベルの安定性にまたがる評価プロトコルについて検討し, サンプル効率, 一般化, 安全な配置など, オープンな課題を明らかにした。
我々のゴールは、研究者や実践者たちに、急速に拡大する視覚的RLの風景のコヒーレントな地図を提供し、将来的な探求の方向性を明らかにすることである。
リソースは、https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learningで入手できる。
関連論文リスト
- AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - A Technical Survey of Reinforcement Learning Techniques for Large Language Models [33.38582292895673]
大規模言語モデル(LLM)の整合・拡張のための変換的アプローチとして強化学習(RL)が登場している。
RLHFはアライメントにおいて支配的であり、RLVRのような結果ベースのRLは段階的推論を著しく改善する。
報酬のハッキング、計算コスト、スケーラブルなフィードバック収集といった永続的な課題は、継続的なイノベーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-05T19:13:00Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。